项目简介
Apache Kyuubi是面向数据仓库和数据湖的分布式多租户无服务SQL网关
Apache Kyuubi is a distributed and multi-tenant gateway to provide serverless SQL on data warehouses and lakehouses.
智能解读
Apache Kyuubi 是一个分布式的、支持多租户的 SQL 网关服务,它为核心大数据计算引擎(如 Apache Spark)提供了一个统一的、无服务器化的访问入口。通过标准的 Thrift JDBC/ODBC 接口,它允许用户直接使用纯 SQL 语言来查询和处理数据仓库与数据湖中的海量数据,而无需深入了解底层复杂的 Spark 技术细节。 该项目极大地降低了使用大数据技术的门槛。对于最终用户而言,它就像一个“开箱即用”的 SQL 查询工具,只需具备 SQL 知识即可操作大数据。对于系统管理员,Kyuubi 的多租户架构则能有效管理集群资源,实现计算隔离、数据安全和高并发访问控制,从而简化了大规模、多团队协作环境下的运维管理。它非常适合作为企业级数据平台的核心 SQL 网关,支撑商业智能(BI)工具(如 Apache Superset)进行数据分析和可视化。
使用场景
最适合需要为多团队提供统一、安全、高性能SQL查询入口的企业级大数据平台场景。
替代HiveServer2
企业需要从Hive迁移到Spark SQL以获得更好性能,但现有的HiveServer2客户端工具(如JDBC/ODBC)和权限体系需要保持兼容。
Kyuubi提供与HiveServer2完全兼容的Thrift接口,企业可以无缝迁移现有BI工具和应用程序,同时享受Spark SQL的性能优势。
数据分析师继续使用Tableau通过JDBC连接Kyuubi查询数据,无需改变原有连接方式和SQL语法,但查询速度提升3-5倍。
多租户SQL网关
多个团队共享Spark集群时,无法隔离资源、控制访问权限,单个Spark Thrift Server无法满足多用户并发需求。
Kyuubi为每个用户或租户动态创建独立的Spark引擎实例,实现资源隔离、权限控制和会话管理。
公司内部的数据团队、产品团队、运营团队通过同一个Kyuubi网关访问数据,各自有独立的Spark会话和资源配额,互不影响。
无服务器化Spark查询
业务人员需要查询大数据但不懂Spark技术,每次查询都需要开发人员编写Spark代码并提交作业,效率低下。
Kyuubi提供纯SQL接口,用户只需通过JDBC/ODBC提交SQL语句,Kyuubi自动管理Spark引擎的生命周期。
市场分析师在Superset中拖拽生成报表,Kyuubi在后台自动启动Spark引擎执行查询,查询结束后自动释放资源。
统一数据湖查询入口
企业数据分散在Hive、数据湖(Delta Lake、Iceberg)等多种存储中,缺乏统一的SQL查询入口。
Kyuubi基于Spark SQL提供统一的SQL查询能力,支持跨多种数据源的联邦查询。
用户通过一条SQL语句同时查询Hive中的历史数据和Delta Lake中的实时数据,进行跨数据源关联分析。
项目健康度
综合活跃度、人气、增长、社区、文档评估
项目信息
赞赏支持
如果本站对你有帮助,欢迎打赏支持
微信
支付宝
Widget 徽章
相关项目推荐
twitter/the-algorithm
X 推荐算法源代码
apache/spark
Apache Spark——面向大规模数据处理的统一分析引擎
lichess-org/lila
♞ lichess.org:永久免费、无广告、开源的国际象棋服务器 ♞
scala/scala
Scala 2编译器与标准库。Scala 2错误报告请提交至https://github.com/scala/bug;Scala 3项目位于https://github.com/scala/scala3
akka/akka-core
一个用于构建和运行具备弹性、敏捷性和韧性应用的平台。提供软件开发工具包、程序库及托管环境。
akka/akka
一个用于构建和运行具备弹性、敏捷性和韧性应用的平台。提供SDK、库及托管环境。
加载评论中...