Spark

共找到 20 个相关项目

apache/spark

Apache Spark——面向大规模数据处理的统一分析引擎

42k
29k
51
+206
排名 #10
2月23日
查看详情

DataExpert-io/data-engineer-handbook

数据工程全方位学习资源汇总仓库

40k
7.7k
77
+489
排名 #7
2月19日
查看详情

DataTalksClub/data-engineering-zoomcamp

数据工程集训营是一门为期九周的免费课程,涵盖数据工程基础知识。

38k
7.8k
64
+3.7k
排名 #18
2月20日
查看详情

mlflow/mlflow

构建AI/大语言模型应用的开源开发者平台,提供端到端追踪、可观测性与评估功能的一体化集成平台

24k
5.3k
69
+74
排名 #9
2月19日
查看详情

apache/doris

Apache Doris 是一款易用、高性能的统一分析数据库。

14k
3.7k
73
+9
排名 #19
2月6日
查看详情

apache/seatunnel

SeaTunnel是多模态、高性能、分布式海量数据集成工具

9.1k
2.2k
107
+26
排名 #22
2月4日
查看详情

delta-io/delta

一种开源存储框架,能够通过Spark、PrestoDB、Flink、Trino和Hive等计算引擎及API构建湖仓架构。

8.6k
2k
74
+89
排名 #16
2月22日
查看详情

h2oai/h2o-3

H2O是一个开源、分布式、快速且可扩展的机器学习平台:支持深度学习、梯度提升、XGBoost、随机森林、广义线性模型、K均值聚类、主成分分析、广义可加模型、规则拟合、支持向量机、堆叠集成、自动机器学习等。

7.5k
2k
32
+1
排名 #16
2月22日
查看详情

apache/hudi

大数据上的更新插入、删除与增量处理

6k
2.5k
55
+31
排名 #19
12月26日
查看详情

awslabs/deequ

Deequ是基于Apache Spark构建的库,用于定义"数据单元测试",可测量大规模数据集的数据质量

3.6k
581
79
+1
排名 #20
2月14日
查看详情

apache/paimon

Apache Paimon 是一种湖存储格式,支持基于 Flink 和 Spark 构建流批一体的实时湖仓架构。

3.2k
1.3k
99
+1
排名 #15
2月5日
查看详情

apache/kyuubi

Apache Kyuubi是面向数据仓库和数据湖的分布式多租户无服务SQL网关

2.3k
985
74
+14
排名 #22
2月14日
查看详情

apache/incubator-gluten

Gluten是一个中间层,负责将基于JVM的SQL引擎执行卸载到原生引擎。

1.5k
585
82
+27
排名 #20
2月21日
查看详情

apache/datafusion-comet

Apache DataFusion Comet Spark加速器

1.1k
285
71
+34
排名 #17
2月14日
查看详情

h2oai/sparkling-water

Sparkling Water在Spark集群内提供H2O功能。

977
361
31
+1
排名 #20
2月22日
查看详情

NVIDIA/spark-rapids

Spark RAPIDS 插件——利用 GPU 加速 Apache Spark

961
274
68
+6
排名 #17
2月13日
查看详情

apache/incubator-livy

Apache Livy 是一个开源 REST 接口,支持从任意位置与 Apache Spark 进行交互。

946
620
78
+1
排名 #16
2月23日
查看详情

delta-io/delta-sharing

安全数据共享的开放协议

921
217
44
+3
排名 #19
2月22日
查看详情

pingcap/tispark

TiSpark 专为在 TiDB/TiKV 之上运行 Apache Spark 而构建

891
250
56
+2
排名 #10
2月8日
查看详情

ClickHouse/spark-clickhouse-connector

基于DataSourceV2 API构建的Spark ClickHouse连接器

211
82
75
+1
排名 #13
2月2日
查看详情
助手