
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
Apache Kyuubi 是一款基于 Apache Spark 的分布式 SQL 引擎,核心目标是简化多源数据的统一访问。它通过提供标准 SQL 接口(兼容 HiveServer2),让用户无需关心底层数据源差异,直接用 SQL 查询 HDFS、数据湖(如 Iceberg、Hudi)、关系型数据库等各类存储系统,降低数据访问门槛。
(1)多数据源统一接入
支持主流数据存储:Hive 表、Iceberg/Hudi 数据湖、Delta Lake、S3/HDFS 文件(Parquet/ORC/CSV)、MySQL/PostgreSQL 等关系库,以及 Elasticsearch、Kafka 等流数据系统。用户通过统一 SQL 即可跨源查询,无需切换工具。
(2)标准 SQL 接口与兼容性
提供 JDBC/ODBC 接口,兼容 HiveServer2 协议,可直接对接 Beeline、DBeaver 等客户端,或集成 Tableau、Power BI 等 BI 工具,无需改造现有数据链路。
(3)高并发与低延迟优化
内置连接池、会话复用机制,支持上千用户同时连接;基于 Spark 的执行优化(如 Catalyst 优化器、Tungsten 执行引擎),提升复杂查询效率,适合交互式分析场景。
(4)企业级特性
(5)灵活扩展能力
采用插件化架构,支持自定义数据源(通过 Spark Catalog API)、认证插件、执行优化规则,可按需扩展功能(如新增特定存储的适配逻辑)。
(1)数据湖/仓查询分析
数据分析师可直接用 SQL 查询数据湖(如 Iceberg)或数据仓(Hive)中的数据,无需编写 Spark 代码,简化分析流程。
(2)BI 工具集成
作为 BI 工具(如 Tableau、Superset)的底层查询引擎,提供稳定、高效的 SQL 服务,支撑报表生成与可视化分析。
(3)批流一体数据处理
结合 Spark 的批处理能力与 Structured Streaming,支持实时数据(如 Kafka)与历史数据(如 Hive 表)的联合查询,实现“批流一体”分析。
(4)多租户数据服务
通过资源隔离(如 Spark 动态资源分配)和权限控制,为不同团队/用户提供独立数据访问空间,适合企业多租户场景。
(1)环境准备
kyuubi-1.8.0-bin.tgz)。(2)配置与启动
tar -zxvf kyuubi-1.8.0-bin.tgz && cd kyuubi-1.8.0;conf/kyuubi-defaults.conf):
properties# 指定 Spark 安装路径 spark.master yarn spark.home /path/to/spark-3.3.0 # 启用 Iceberg 数据源(示例) spark.sql.catalog.iceberg org.apache.iceberg.spark.SparkCatalog spark.sql.catalog.iceberg.type hadoop spark.sql.catalog.iceberg.warehouse hdfs:///user/iceberg/warehouse
bin/kyuubi start(默认端口 ***)。(3)连接与查询
用 Beeline 客户端连接:
bashbeeline -u "jdbc:hive2://localhost:10009/" -n your_username
执行查询(以 Iceberg 表为例):
sql-- 查询 Iceberg 表数据 SELECT * FROM iceberg.iceberg_db.sample_table LIMIT 10;
Apache Kyuubi 凭借“统一 SQL 接口+Spark 生态”的优势,解决了多源数据访问碎片化的问题,适合企业级数据平台作为“数据访问层”。无论是数据分析师、BI 开发者还是数据工程师,都能通过它快速对接各类数据,提升工作效率。目前社区活跃,持续迭代优化,已在多家企业(如字节跳动、网易)规模化应用。
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务