NVIDIA-NeMo

NVIDIA-NeMo/DataDesigner

Python 活跃
30
2026-04-07
1.5k
+244
#9
132

项目介绍

🎨 NeMo数据设计器:从零开始或基于种子数据生成高质量合成数据

🎨 NeMo Data Designer: Generate high-quality synthetic data from scratch or from seed data.

智能解读

点击生成更详细的项目介绍

智能标签

生成技术栈、用途、特征、受众等多维度标签

使用场景

使用场景 自动生成

这个项目最适合需要快速生成高质量、结构化合成数据,同时要求数据符合特定业务规则和统计特性的场景。

1

生成测试数据集

开发者在测试新功能时需要大量符合特定格式和业务逻辑的测试数据,但真实数据不足或涉及隐私无法使用。

使用Data Designer定义数据字段、类型和约束关系,快速生成高质量的合成测试数据集,支持Python和SQL验证确保数据质量。

为电商订单系统生成包含用户ID、商品类别、订单金额、时间戳等字段的测试数据,要求金额符合正态分布,时间戳在特定范围内。

2

增强机器学习训练数据

机器学习模型训练时数据量不足或类别不平衡,导致模型泛化能力差,但收集更多真实数据成本高昂。

基于少量种子数据,使用Data Designer的统计采样器和LLM生成器扩展数据集,控制字段间的相关性,生成多样化的合成数据。

医疗影像分类任务中,针对罕见病例样本少的问题,基于现有病例生成符合医学逻辑的合成病例描述和诊断数据。

3

快速原型数据验证

产品经理或业务分析师需要验证数据产品原型,但等待真实数据准备耗时过长,影响开发进度。

通过Data Designer的预览模式快速生成小规模数据集,验证数据结构和业务逻辑,确认后再进行大规模生成。

设计新的用户画像分析报表时,快速生成包含年龄、地域、消费习惯等字段的合成用户数据,验证报表展示逻辑是否正确。

4

智能代理自动生成数据

非技术背景的团队成员需要特定格式的数据进行分析,但不懂编程或数据生成工具。

利用Data Designer的Agent Skill功能,通过自然语言描述需求,让AI代理自动设计数据模式、验证规则并生成数据。

市场分析师对Claude Code说“帮我生成100条包含客户姓名、公司、行业、年收入和联系方式的销售线索数据”,代理自动完成全部生成工作。

项目健康度

B
62/100
良好
活跃度人气增长社区文档
活跃度 23/23

距上次更新 2 天

人气 11/25

平台 Star TOP 63% · Forks 132

增长 13/25

本周 +1,708 ⭐ · 本月 0 ⭐

社区 7/17

17 位贡献者 · 0 条平台评论

文档 8/10

缺少 1 项内容

在 GitHub 上查看

项目信息

作者 NVIDIA-NeMo
来源 GitHub
周期 每日
仓库ID NVIDIA-NeMo/DataDesigner
最新提交 2026-04-07 22:11:01
第一收录 2026-04-08 08:00:48
最后更新 2026-04-08 15:01:37

赞赏支持

如果本站对你有帮助,欢迎打赏支持

微信打赏码

微信

支付宝打赏码

支付宝

评论 0

登录 后发表评论

加载评论中...

助手