❤️❤️❤️❤️❤️❤️ 我们已经正式推出微信小程序,在微信中搜索 TrendForge Pro 即可使用小程序,如果使用 Telegram 请搜索 trendforge_tg ❤️❤️❤️❤️❤️❤️

spark

话题找到数量

apache/spark

Apache Spark——面向大规模数据处理的统一分析引擎

43k
29k
548
+240
排名 #19
5月24日
查看详情

DataExpert-io/data-engineer-handbook

数据工程全方位学习资源汇总仓库

41k
7.8k
344
+883
排名 #16
5月17日
查看详情

DataTalksClub/data-engineering-zoomcamp

数据工程集训营是一门为期九周的免费课程,涵盖数据工程基础知识。

40k
8.2k
381
+3.7k
排名 #18
5月20日
查看详情

mlflow/mlflow

构建AI/大语言模型应用的开源开发者平台,提供端到端追踪、可观测性与评估功能的一体化集成平台

25k
5.6k
434
+74
排名 #11
4月24日
查看详情

apache/doris

Apache Doris 是一款易用、高性能的统一分析数据库。

15k
3.8k
543
+9
排名 #19
5月9日
查看详情

apache/seatunnel

SeaTunnel是多模态、高性能、分布式海量数据集成工具

9.3k
2.2k
592
+26
排名 #25
5月12日
查看详情

delta-io/delta

一种开源存储框架,能够通过Spark、PrestoDB、Flink、Trino和Hive等计算引擎及API构建湖仓架构。

8.8k
2.1k
528
+123
排名 #21
5月24日
查看详情

h2oai/h2o-3

H2O是一个开源、分布式、快速且可扩展的机器学习平台:支持深度学习、梯度提升、XGBoost、随机森林、广义线性模型、K均值聚类、主成分分析、广义可加模型、规则拟合、支持向量机、堆叠集成、自动机器学习等。

7.5k
2k
382
+3
排名 #16
3月9日
查看详情

apache/hudi

大数据上的更新插入、删除与增量处理

6k
2.5k
426
+31
排名 #24
12月26日
查看详情

microsoft/SynapseML

简易分布式机器学习

5.2k
861
330
+2
排名 #18
5月10日
查看详情

JohnSnowLabs/spark-nlp

顶尖自然语言处理技术

4.1k
743
246
+4
排名 #16
5月4日
查看详情

awslabs/deequ

Deequ是基于Apache Spark构建的库,用于定义"数据单元测试",可测量大规模数据集的数据质量

3.6k
583
346
+3
排名 #20
5月14日
查看详情

apache/paimon

Apache Paimon 是一种湖存储格式,支持基于 Flink 和 Spark 构建流批一体的实时湖仓架构。

3.2k
1.3k
514
+1
排名 #17
4月2日
查看详情

lakehq/sail

LakeSail的计算框架,其使命是统一批处理、流处理和计算密集型AI工作负载。

2.7k
158
185
+169
排名 #13
5月24日
查看详情

apache/kyuubi

Apache Kyuubi是面向数据仓库和数据湖的分布式多租户无服务SQL网关

2.3k
1k
470
+14
排名 #25
5月23日
查看详情

apache/gluten

Gluten是一个中间层,负责将基于JVM的SQL引擎执行卸载到原生引擎。

1.6k
608
370
+6
排名 #17
5月24日
查看详情

apache/incubator-gluten

Gluten是一个中间层,负责将基于JVM的SQL引擎执行卸载到原生引擎。

1.5k
585
461
+27
排名 #24
3月5日
查看详情

apache/datafusion-comet

Apache DataFusion Comet Spark加速器

1.2k
321
423
+34
排名 #19
5月24日
查看详情

twosigma/flint

面向Apache Spark的时间序列库

1.1k
194
6
+41
排名 #3
5月24日
查看详情

NVIDIA/spark-rapids

Spark RAPIDS 插件——利用 GPU 加速 Apache Spark

977
285
363
+6
排名 #22
5月21日
查看详情

h2oai/sparkling-water

Sparkling Water在Spark集群内提供H2O功能。

977
362
322
+1
排名 #20
3月29日
查看详情

apache/incubator-livy

Apache Livy 是一个开源 REST 接口,支持从任意位置与 Apache Spark 进行交互。

948
620
343
+1
排名 #18
4月20日
查看详情

delta-io/delta-sharing

安全数据共享的开放协议

943
227
344
+4
排名 #20
5月24日
查看详情

pingcap/tispark

TiSpark 专为在 TiDB/TiKV 之上运行 Apache Spark 而构建

891
250
286
+2
排名 #10
2月8日
查看详情
助手