Spark

话题找到数量

apache/spark

Apache Spark——面向大规模数据处理的统一分析引擎

43k
29k
311
+240
排名 #18
4月9日
查看详情

DataExpert-io/data-engineer-handbook

数据工程全方位学习资源汇总仓库

40k
7.8k
193
+883
排名 #16
3月29日
查看详情

DataTalksClub/data-engineering-zoomcamp

数据工程集训营是一门为期九周的免费课程,涵盖数据工程基础知识。

39k
8k
194
+3.7k
排名 #18
4月8日
查看详情

mlflow/mlflow

构建AI/大语言模型应用的开源开发者平台,提供端到端追踪、可观测性与评估功能的一体化集成平台

24k
5.3k
303
+74
排名 #9
2月19日
查看详情

apache/doris

Apache Doris 是一款易用、高性能的统一分析数据库。

15k
3.8k
298
+9
排名 #19
4月4日
查看详情

apache/seatunnel

SeaTunnel是多模态、高性能、分布式海量数据集成工具

9.2k
2.2k
334
+26
排名 #22
4月1日
查看详情

delta-io/delta

一种开源存储框架,能够通过Spark、PrestoDB、Flink、Trino和Hive等计算引擎及API构建湖仓架构。

8.7k
2.1k
291
+89
排名 #21
4月9日
查看详情

h2oai/h2o-3

H2O是一个开源、分布式、快速且可扩展的机器学习平台:支持深度学习、梯度提升、XGBoost、随机森林、广义线性模型、K均值聚类、主成分分析、广义可加模型、规则拟合、支持向量机、堆叠集成、自动机器学习等。

7.5k
2k
194
+3
排名 #16
3月9日
查看详情

apache/hudi

大数据上的更新插入、删除与增量处理

6k
2.5k
189
+31
排名 #19
12月26日
查看详情

microsoft/SynapseML

简易分布式机器学习

5.2k
860
149
排名 #13
3月25日
查看详情

JohnSnowLabs/spark-nlp

顶尖自然语言处理技术

4.1k
741
82
+2
排名 #10
4月7日
查看详情

awslabs/deequ

Deequ是基于Apache Spark构建的库,用于定义"数据单元测试",可测量大规模数据集的数据质量

3.6k
581
179
+1
排名 #20
3月26日
查看详情

apache/paimon

Apache Paimon 是一种湖存储格式,支持基于 Flink 和 Spark 构建流批一体的实时湖仓架构。

3.2k
1.3k
300
+1
排名 #17
4月2日
查看详情

apache/kyuubi

Apache Kyuubi是面向数据仓库和数据湖的分布式多租户无服务SQL网关

2.3k
993
261
+14
排名 #22
4月9日
查看详情

apache/gluten

Gluten是一个中间层,负责将基于JVM的SQL引擎执行卸载到原生引擎。

1.5k
593
146
+6
排名 #17
4月9日
查看详情

apache/incubator-gluten

Gluten是一个中间层,负责将基于JVM的SQL引擎执行卸载到原生引擎。

1.5k
585
251
+27
排名 #20
3月5日
查看详情

lakehq/sail

LakeSail的计算框架,其使命是统一批处理、流处理和计算密集型AI工作负载。

1.2k
83
62
+22
排名 #8
4月2日
查看详情

apache/datafusion-comet

Apache DataFusion Comet Spark加速器

1.2k
294
211
+34
排名 #17
3月22日
查看详情

h2oai/sparkling-water

Sparkling Water在Spark集群内提供H2O功能。

977
362
170
+1
排名 #20
3月29日
查看详情

NVIDIA/spark-rapids

Spark RAPIDS 插件——利用 GPU 加速 Apache Spark

973
282
224
+6
排名 #19
4月9日
查看详情

apache/incubator-livy

Apache Livy 是一个开源 REST 接口,支持从任意位置与 Apache Spark 进行交互。

946
620
169
+1
排名 #18
3月9日
查看详情

delta-io/delta-sharing

安全数据共享的开放协议

932
221
183
+4
排名 #19
4月9日
查看详情

pingcap/tispark

TiSpark 专为在 TiDB/TiKV 之上运行 Apache Spark 而构建

891
250
145
+2
排名 #10
2月8日
查看详情

snowflakedb/spark-snowflake

Apache Spark 的 Snowflake 数据源。

230
107
104
排名 #6
3月22日
查看详情
助手