项目竞品
共找到 20 个竞品pingcap/tispark
TiSpark 专为在 TiDB/TiKV 之上运行 Apache Spark 而构建
apache/spark
Apache Spark——面向大规模数据处理的统一分析引擎
delta-io/delta
一种开源存储框架,能够通过Spark、PrestoDB、Flink、Trino和Hive等计算引擎及API构建湖仓架构。
awslabs/deequ
Deequ是基于Apache Spark构建的库,用于定义"数据单元测试",可测量大规模数据集的数据质量
apache/kyuubi
Apache Kyuubi是面向数据仓库和数据湖的分布式多租户无服务SQL网关
apache/datafusion-comet
Apache DataFusion Comet Spark加速器
h2oai/sparkling-water
Sparkling Water在Spark集群内提供H2O功能。
NVIDIA/spark-rapids
Spark RAPIDS 插件——利用 GPU 加速 Apache Spark
delta-io/delta-sharing
安全数据共享的开放协议
ClickHouse/spark-clickhouse-connector
基于DataSourceV2 API构建的Spark ClickHouse连接器
DataExpert-io/data-engineer-handbook
数据工程全方位学习资源汇总仓库
DataTalksClub/data-engineering-zoomcamp
数据工程集训营是一门为期九周的免费课程,涵盖数据工程基础知识。
taosdata/TDengine
专为工业物联网(IIoT)场景设计的高性能、可扩展时序数据库
rustfs/rustfs
🚀 面向 MinIO 替代方案的高性能分布式对象存储
apache/shardingsphere
通过分布式SQL为所有数据库提供分片、可扩展性和安全性,赋能数据智能。
apache/doris
Apache Doris 是一款易用、高性能的统一分析数据库。
juicedata/juicefs
JuiceFS 是一个基于 Redis 和 S3 构建的分布式 POSIX 文件系统。
apache/seatunnel
SeaTunnel是多模态、高性能、分布式海量数据集成工具
h2oai/h2o-3
H2O是一个开源、分布式、快速且可扩展的机器学习平台:支持深度学习、梯度提升、XGBoost、随机森林、广义线性模型、K均值聚类、主成分分析、广义可加模型、规则拟合、支持向量机、堆叠集成、自动机器学习等。
apache/paimon
Apache Paimon 是一种湖存储格式,支持基于 Flink 和 Spark 构建流批一体的实时湖仓架构。
相关项目推荐
twitter/the-algorithm
X 推荐算法源代码
apache/spark
Apache Spark——面向大规模数据处理的统一分析引擎
lichess-org/lila
♞ lichess.org:永久免费、无广告、开源的国际象棋服务器 ♞
scala/scala
Scala 2编译器与标准库。Scala 2错误报告请提交至https://github.com/scala/bug;Scala 3项目位于https://github.com/scala/scala3
akka/akka-core
一个用于构建和运行具备弹性、敏捷性和韧性应用的平台。提供软件开发工具包、程序库及托管环境。
akka/akka
一个用于构建和运行具备弹性、敏捷性和韧性应用的平台。提供SDK、库及托管环境。