学习路径指南
难度等级
初级
预计时长
3-5小时
适合人群
对数据科学和AI感兴趣的新手,有一定Python基础但无AI代理开发经验的开发者,想快速体验AI辅助数据科学工作流的初学者

学习目标:学会安装和运行AI Pipeline Studio应用,理解AI代理如何协作完成数据科学任务,并能使用库中的基础代理进行简单的数据加载、清洗和可视化

前置知识

Python基础 熟悉

需要能理解Python语法、安装包、运行脚本,因为项目是Python库且需要通过命令行操作

Git基础 了解

需要克隆GitHub仓库到本地

数据科学基础概念 了解 (可选)

了解数据清洗、可视化、机器学习等基本术语,有助于理解代理的工作内容

OpenAI API 了解

需要获取API密钥才能使用默认的GPT模型,这是项目运行的核心依赖

学习步骤

1

环境准备与项目初识

30-45分钟

检查Python版本并安装Git

确保本地Python版本≥3.10,并安装Git客户端(如果尚未安装)

在终端输入 python --version 或 python3 --version 检查版本

获取OpenAI API密钥

访问OpenAI官网注册/登录,在API Keys页面创建新的密钥并妥善保存

免费额度可能有限,注意使用量;密钥不要分享或上传到公开代码库

克隆项目仓库

打开终端,执行 git clone https://github.com/business-science/ai-data-science-team.git 将项目下载到本地

建议在专门的开发目录下操作

浏览项目结构

在文件管理器中查看项目文件夹,重点关注根目录的README.md、requirements.txt,以及 apps/ 和 examples/ 目录

先不深入代码,了解整体布局即可

2

安装与初次运行

45-60分钟

创建并激活虚拟环境(推荐)

在项目根目录下,使用 venv 或 conda 创建独立的Python环境并激活

避免污染系统Python环境,便于管理依赖

以可编辑模式安装项目

在激活的虚拟环境中,执行 pip install -e . 安装项目库及其依赖

-e 参数允许你修改本地代码并立即生效,适合学习

配置API密钥环境变量

在终端中设置环境变量 OPENAI_API_KEY,值为你之前获取的密钥。例如在Linux/Mac: export OPENAI_API_KEY='your-key',Windows: set OPENAI_API_KEY=your-key

也可以将密钥保存在.env文件中,但确保该文件不被提交到Git

运行AI Pipeline Studio应用

在终端执行 python apps/ai-pipeline-studio-app/run.py 启动旗舰应用

首次运行会下载一些模型或依赖,可能需要等待。注意终端输出的访问地址(通常是 http://127.0.0.1:8050)

探索应用界面

在浏览器中打开应用,尝试点击各个面板(Visual Editor, Table, Chart等),感受界面布局,暂不进行复杂操作

目标是熟悉环境,遇到错误先记下,可能是配置问题

3

核心概念与基础操作

60-90分钟

跟随一个完整的数据工作流

在AI Pipeline Studio中,尝试创建一个新项目,使用‘Data Loader Tools’加载一个示例CSV文件(可在网上找或使用项目自带的示例数据),然后依次尝试‘Data Cleaning’、‘Data Visualization’代理的简单功能

先使用AI自动建议,再观察生成的代码和结果,理解代理在背后做了什么

查看代理示例代码

关闭应用,在 examples/ 目录下,选择一个简单的代理示例文件(如 basic_agent_usage.py),阅读并尝试运行它

运行前确保虚拟环境已激活且API密钥已设置。从单个代理的例子开始,理解其输入输出

理解多代理工作流

查看 examples/multi_agent_workflows/ 下的例子,例如 pandas_data_analyst.py。阅读代码,理解Supervisor Agent如何协调其他代理完成任务

不必完全理解所有代码,重点是看任务分解和代理间对话的模式

尝试本地模型(Ollama)配置(可选)

如果你不想使用OpenAI API或想体验本地模型,按照README中‘Use Ollama’部分的说明,安装Ollama并拉取一个模型(如llama3.2),修改代理的初始化代码使用本地模型

本地模型对硬件有要求,且响应可能较慢。此步骤可选,但对理解模型配置有帮助

4

实践与探索

60分钟

用你自己的数据做一个迷你项目

在AI Pipeline Studio中,使用你自己的一个小型CSV数据集(如从Kaggle下载的简单数据集),重复数据加载、探索性分析和创建一个简单可视化的流程

数据集要小(<1MB),结构简单,避免复杂的数据类型和缺失值,以降低初期难度

探索其他应用

尝试运行 apps/ 目录下的其他应用,如 exploratory-copilot-app 或 pandas-data-analyst-app,比较它们与旗舰应用的区别

每个应用侧重点不同,有助于理解库的灵活性

阅读关键库代码

打开库的核心目录 ai_data_science_team/,浏览 agents/ 和 tools/ 下的部分文件,了解代理和工具是如何定义的

重点关注类的结构和继承关系,不必逐行阅读

推荐资源

项目README.md 必看

最核心的指南,包含安装、快速启动、库概述和示例

AI Pipeline Studio App README 推荐

apps/ai-pipeline-studio-app/README.md,包含该旗舰应用的详细功能说明

examples/ 目录下的示例脚本 必看

最直接的学习资源,展示了每个代理和多种工作流的具体用法

GitHub Issues 和 Discussions 推荐

查看他人遇到的问题和解决方案,也可以在这里提问

Next-Gen AI Agentic Workshop 可选

README中提到的作者的工作坊,系统学习如何构建AI代理和应用

常见错误与避坑指南

1

未正确设置OPENAI_API_KEY环境变量

确保在运行应用或脚本的同一个终端会话中设置了该变量。使用 echo $OPENAI_API_KEY (Linux/Mac) 或 echo %OPENAI_API_KEY% (Windows) 检查。对于应用,有时需要在启动应用的脚本或环境内设置。

2

Python版本过低(<3.10)导致安装或运行错误

使用 pyenv、conda 或官方安装包将Python升级到3.10或更高版本,并在新环境中重新安装项目。

3

直接运行示例脚本时遇到模块导入错误(ModuleNotFoundError)

确保在项目根目录下运行脚本,或者确保Python路径包含项目根目录。最稳妥的方式是在项目根目录下,在激活的虚拟环境中运行 python examples/xxx.py。

4

在AI Pipeline Studio中加载数据失败

检查文件路径是否正确(应用可能有其当前工作目录),确保文件格式是支持的(如CSV),并且文件编码无误(尝试UTF-8)。从小文件开始测试。

5

看到API调用配额不足或频率限制的错误

检查OpenAI账户的用量和配额。对于学习,可以尝试使用更小的模型(如gpt-3.5-turbo),或者在非高峰时段操作。考虑配置Ollama使用免费本地模型。

下一步探索

1. 深入研究某个特定代理(如H2O ML Agent或SQL Database Agent),学习其高级配置和参数调优。 2. 参考 examples/ 中的模式,尝试组合不同的代理和工具,创建一个解决特定数据科学问题(如时间序列预测)的自定义工作流。 3. 学习LangChain或LlamaIndex等框架,理解本项目与它们的异同,思考如何集成。 4. 尝试修改或扩展现有的代理,添加自定义工具(Custom tools),使其适应你的专属任务。 5. 关注项目的版本更新(尤其是达到0.1.0稳定版时),学习其API设计的最佳实践。

助手