business-science/ai-data-science-team - 学习路径

❤️❤️❤️❤️❤️❤️ 我们已经正式推出微信小程序，在微信中搜索 TrendForge Pro 即可使用小程序，如果使用 Telegram 请搜索 trendforge_tg ❤️❤️❤️❤️❤️❤️

项目介绍快速开始学习路径项目截图 1 贡献者 2 增长趋势 Commit 历史代码统计生态关系项目时间线项目竞品依赖分析上榜历史

学习路径指南

难度等级

初级

预计时长

3-5小时

适合人群

对数据科学和AI感兴趣的新手，有一定Python基础但无AI代理开发经验的开发者，想快速体验AI辅助数据科学工作流的初学者

学习目标：学会安装和运行AI Pipeline Studio应用，理解AI代理如何协作完成数据科学任务，并能使用库中的基础代理进行简单的数据加载、清洗和可视化

前置知识

Python基础熟悉

需要能理解Python语法、安装包、运行脚本，因为项目是Python库且需要通过命令行操作

Git基础了解

需要克隆GitHub仓库到本地

数据科学基础概念了解 (可选)

了解数据清洗、可视化、机器学习等基本术语，有助于理解代理的工作内容

OpenAI API 了解

需要获取API密钥才能使用默认的GPT模型，这是项目运行的核心依赖

学习步骤

环境准备与项目初识

30-45分钟

检查Python版本并安装Git

确保本地Python版本≥3.10，并安装Git客户端（如果尚未安装）

在终端输入 python --version 或 python3 --version 检查版本

获取OpenAI API密钥

访问OpenAI官网注册/登录，在API Keys页面创建新的密钥并妥善保存

免费额度可能有限，注意使用量；密钥不要分享或上传到公开代码库

克隆项目仓库

打开终端，执行 git clone https://github.com/business-science/ai-data-science-team.git 将项目下载到本地

建议在专门的开发目录下操作

浏览项目结构

在文件管理器中查看项目文件夹，重点关注根目录的README.md、requirements.txt，以及 apps/ 和 examples/ 目录

先不深入代码，了解整体布局即可

安装与初次运行

45-60分钟

创建并激活虚拟环境（推荐）

在项目根目录下，使用 venv 或 conda 创建独立的Python环境并激活

避免污染系统Python环境，便于管理依赖

以可编辑模式安装项目

在激活的虚拟环境中，执行 pip install -e . 安装项目库及其依赖

-e 参数允许你修改本地代码并立即生效，适合学习

配置API密钥环境变量

在终端中设置环境变量 OPENAI_API_KEY，值为你之前获取的密钥。例如在Linux/Mac: export OPENAI_API_KEY='your-key'，Windows: set OPENAI_API_KEY=your-key

也可以将密钥保存在.env文件中，但确保该文件不被提交到Git

运行AI Pipeline Studio应用

在终端执行 python apps/ai-pipeline-studio-app/run.py 启动旗舰应用

首次运行会下载一些模型或依赖，可能需要等待。注意终端输出的访问地址（通常是 http://127.0.0.1:8050）

探索应用界面

在浏览器中打开应用，尝试点击各个面板（Visual Editor, Table, Chart等），感受界面布局，暂不进行复杂操作

目标是熟悉环境，遇到错误先记下，可能是配置问题

核心概念与基础操作

60-90分钟

跟随一个完整的数据工作流

在AI Pipeline Studio中，尝试创建一个新项目，使用‘Data Loader Tools’加载一个示例CSV文件（可在网上找或使用项目自带的示例数据），然后依次尝试‘Data Cleaning’、‘Data Visualization’代理的简单功能

先使用AI自动建议，再观察生成的代码和结果，理解代理在背后做了什么

查看代理示例代码

关闭应用，在 examples/ 目录下，选择一个简单的代理示例文件（如 basic_agent_usage.py），阅读并尝试运行它

运行前确保虚拟环境已激活且API密钥已设置。从单个代理的例子开始，理解其输入输出

理解多代理工作流

查看 examples/multi_agent_workflows/ 下的例子，例如 pandas_data_analyst.py。阅读代码，理解Supervisor Agent如何协调其他代理完成任务

不必完全理解所有代码，重点是看任务分解和代理间对话的模式

尝试本地模型（Ollama）配置（可选）

如果你不想使用OpenAI API或想体验本地模型，按照README中‘Use Ollama’部分的说明，安装Ollama并拉取一个模型（如llama3.2），修改代理的初始化代码使用本地模型

本地模型对硬件有要求，且响应可能较慢。此步骤可选，但对理解模型配置有帮助

实践与探索

60分钟

用你自己的数据做一个迷你项目

在AI Pipeline Studio中，使用你自己的一个小型CSV数据集（如从Kaggle下载的简单数据集），重复数据加载、探索性分析和创建一个简单可视化的流程

数据集要小（<1MB），结构简单，避免复杂的数据类型和缺失值，以降低初期难度

探索其他应用

尝试运行 apps/ 目录下的其他应用，如 exploratory-copilot-app 或 pandas-data-analyst-app，比较它们与旗舰应用的区别

每个应用侧重点不同，有助于理解库的灵活性

阅读关键库代码

打开库的核心目录 ai_data_science_team/，浏览 agents/ 和 tools/ 下的部分文件，了解代理和工具是如何定义的

重点关注类的结构和继承关系，不必逐行阅读

学习路径常见错误

未正确设置OPENAI_API_KEY环境变量

确保在运行应用或脚本的同一个终端会话中设置了该变量。使用 echo $OPENAI_API_KEY (Linux/Mac) 或 echo %OPENAI_API_KEY% (Windows) 检查。对于应用，有时需要在启动应用的脚本或环境内设置。

Python版本过低（<3.10）导致安装或运行错误

使用 pyenv、conda 或官方安装包将Python升级到3.10或更高版本，并在新环境中重新安装项目。

直接运行示例脚本时遇到模块导入错误（ModuleNotFoundError）

确保在项目根目录下运行脚本，或者确保Python路径包含项目根目录。最稳妥的方式是在项目根目录下，在激活的虚拟环境中运行 python examples/xxx.py。

在AI Pipeline Studio中加载数据失败

检查文件路径是否正确（应用可能有其当前工作目录），确保文件格式是支持的（如CSV），并且文件编码无误（尝试UTF-8）。从小文件开始测试。

看到API调用配额不足或频率限制的错误

检查OpenAI账户的用量和配额。对于学习，可以尝试使用更小的模型（如gpt-3.5-turbo），或者在非高峰时段操作。考虑配置Ollama使用免费本地模型。

学习路径下一步步骤

1. 深入研究某个特定代理（如H2O ML Agent或SQL Database Agent），学习其高级配置和参数调优。 2. 参考 examples/ 中的模式，尝试组合不同的代理和工具，创建一个解决特定数据科学问题（如时间序列预测）的自定义工作流。 3. 学习LangChain或LlamaIndex等框架，理解本项目与它们的异同，思考如何集成。 4. 尝试修改或扩展现有的代理，添加自定义工具（Custom tools），使其适应你的专属任务。 5. 关注项目的版本更新（尤其是达到0.1.0稳定版时），学习其API设计的最佳实践。