项目简介
Gluten是一个中间层,负责将基于JVM的SQL引擎执行卸载到原生引擎。
Gluten is a middle layer responsible for offloading JVM-based SQL engines' execution to native engines.
智能解读
Apache Gluten 是一个处于孵化阶段的开源项目,旨在为 Apache Spark 这类基于 Java 虚拟机(JVM)的 SQL 引擎提供一个高性能的中间层。其核心功能是充当“粘合剂”,将 Spark SQL 查询计划中计算密集型的部分,无缝地卸载到像 ClickHouse、Velox 这样的原生执行引擎上运行。这些原生引擎利用列式存储、向量化处理和 SIMD 指令等先进技术,能显著提升单个算子的执行效率。 通过复用 Spark 成熟的分布式任务调度与容错机制,并借助 Substrait 等标准进行计划转换,Gluten 使得用户无需改写现有 Spark 应用,就能结合原生引擎的高性能与 Spark 生态的高可扩展性。该项目主要适用于希望进一步提升大数据处理性能,尤其是那些受限于 JVM 开销和算子执行效率的 Spark 生产环境。
使用场景
最适合需要显著提升Spark SQL性能但不想重构现有代码的场景。
加速Spark SQL查询
Spark SQL在处理复杂分析查询时性能遇到瓶颈,特别是涉及大量数据扫描和聚合操作时速度较慢。
使用Gluten将Spark SQL的执行卸载到ClickHouse或Velox原生引擎,利用其向量化执行和列式存储优势,显著提升查询性能。
一个电商数据分析平台,每天需要处理TB级的用户行为日志进行漏斗分析,使用Gluten后查询速度提升3-5倍。
混合技术栈集成
企业已有基于ClickHouse的实时分析系统,但需要与Spark的批处理和数据湖能力集成,避免数据重复和架构复杂。
通过Gluten作为中间层,在Spark中直接调用ClickHouse引擎执行SQL,统一使用Spark API同时获得ClickHouse的高性能。
金融风控系统需要同时处理实时交易流(ClickHouse)和历史数据挖掘(Spark),使用Gluten实现统一查询接口。
降低Spark资源成本
Spark集群CPU和内存资源消耗大,特别是在处理高并发查询时JVM开销显著,硬件成本高昂。
利用原生引擎(如Velox)的高效内存管理和SIMD指令集,在相同硬件配置下处理更多查询,减少集群规模。
一个SaaS平台需要为多个租户提供即席查询服务,使用Gluten后单台服务器支持的并发查询数提升2倍。
无缝性能升级
现有Spark应用代码复杂,重构成本高,但需要获得新一代查询引擎的性能优势。
只需在Spark配置中启用Gluten插件,无需修改现有DataFrame或SQL代码,即可透明地获得原生引擎加速。
一个已上线的数据仓库应用,通过添加spark.gluten.enabled=true配置,查询性能平均提升40%以上。
项目健康度
综合活跃度、人气、增长、社区、文档评估
项目信息
赞赏支持
如果本站对你有帮助,欢迎打赏支持
微信
支付宝
Widget 徽章
相关项目推荐
twitter/the-algorithm
X 推荐算法源代码
apache/spark
Apache Spark——面向大规模数据处理的统一分析引擎
lichess-org/lila
♞ lichess.org:永久免费、无广告、开源的国际象棋服务器 ♞
scala/scala
Scala 2编译器与标准库。Scala 2错误报告请提交至https://github.com/scala/bug;Scala 3项目位于https://github.com/scala/scala3
akka/akka-core
一个用于构建和运行具备弹性、敏捷性和韧性应用的平台。提供软件开发工具包、程序库及托管环境。
akka/akka
一个用于构建和运行具备弹性、敏捷性和韧性应用的平台。提供SDK、库及托管环境。
加载评论中...