apache/kyuubiApache Kyuubi 是一款基于 Apache Spark 的分布式 SQL 引擎,核心目标是简化多源数据的统一访问。它通过提供标准 SQL 接口(兼容 HiveServer2),让用户无需关心底层数据源差异,直接用 SQL 查询 HDFS、数据湖(如 Iceberg、Hudi)、关系型数据库等各类存储系统,降低数据访问门槛。
支持主流数据存储:Hive 表、Iceberg/Hudi 数据湖、Delta Lake、S3/HDFS 文件(Parquet/ORC/CSV)、MySQL/PostgreSQL 等关系库,以及 Elasticsearch、Kafka 等流数据系统。用户通过统一 SQL 即可跨源查询,无需切换工具。
提供 JDBC/ODBC 接口,兼容 HiveServer2 协议,可直接对接 Beeline、DBeaver 等客户端,或集成 Tableau、Power BI 等 BI 工具,无需改造现有数据链路。
内置连接池、会话复用机制,支持上千用户同时连接;基于 Spark 的执行优化(如 Catalyst 优化器、Tungsten 执行引擎),提升复杂查询效率,适合交互式分析场景。
采用插件化架构,支持自定义数据源(通过 Spark Catalog API)、认证插件、执行优化规则,可按需扩展功能(如新增特定存储的适配逻辑)。
数据分析师可直接用 SQL 查询数据湖(如 Iceberg)或数据仓(Hive)中的数据,无需编写 Spark 代码,简化分析流程。
作为 BI 工具(如 Tableau、Superset)的底层查询引擎,提供稳定、高效的 SQL 服务,支撑报表生成与可视化分析。
结合 Spark 的批处理能力与 Structured Streaming,支持实时数据(如 Kafka)与历史数据(如 Hive 表)的联合查询,实现“批流一体”分析。
通过资源隔离(如 Spark 动态资源分配)和权限控制,为不同团队/用户提供独立数据访问空间,适合企业多租户场景。
kyuubi-1.8.0-bin.tgz)。tar -zxvf kyuubi-1.8.0-bin.tgz && cd kyuubi-1.8.0;conf/kyuubi-defaults.conf):
properties# 指定 Spark 安装路径 spark.master yarn spark.home /path/to/spark-3.3.0 # 启用 Iceberg 数据源(示例) spark.sql.catalog.iceberg org.apache.iceberg.spark.SparkCatalog spark.sql.catalog.iceberg.type hadoop spark.sql.catalog.iceberg.warehouse hdfs:///user/iceberg/warehouse
bin/kyuubi start(默认端口 ***)。用 Beeline 客户端连接:
bashbeeline -u "jdbc:hive2://localhost:***/" -n your_username
执行查询(以 Iceberg 表为例):
sql-- 查询 Iceberg 表数据 SELECT * FROM iceberg.iceberg_db.sample_table LIMIT 10;
Apache Kyuubi 凭借“统一 SQL 接口+Spark 生态”的优势,解决了多源数据访问碎片化的问题,适合企业级数据平台作为“数据访问层”。无论是数据分析师、BI 开发者还是数据工程师,都能通过它快速对接各类数据,提升工作效率。目前社区活跃,持续迭代优化,已在多家企业(如字节跳动、网易)规模化应用。

manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务