5分钟上手AI数据科学团队

快速安装并启动AI Pipeline Studio应用,体验AI驱动的数据科学工作流

环境要求

支持的操作系统

macOS Windows Linux

运行环境

Python >= 3.10 必需

所需工具

Git

克隆项目仓库

必需

操作步骤

1

克隆项目并安装依赖

下载项目代码并安装必要的Python包

克隆项目仓库
git clone https://github.com/business-science/ai-data-science-team.git
进入项目目录
cd ai-data-science-team
以可编辑模式安装项目
pip install -e .

预期结果:看到安装成功的提示,没有错误信息

建议使用虚拟环境(如venv或conda)来管理依赖

2

设置API密钥

配置OpenAI API密钥以使用AI功能

Linux/macOS设置环境变量
export OPENAI_API_KEY='your-api-key-here'
Windows设置环境变量
set OPENAI_API_KEY=your-api-key-here

预期结果:无报错,环境变量设置成功

如果没有OpenAI API密钥,可以使用Ollama运行本地模型

3

启动AI Pipeline Studio

运行主应用,开始可视化数据科学工作流

启动Streamlit应用
streamlit run apps/ai-pipeline-studio-app/app.py

预期结果:看到Streamlit启动信息,浏览器自动打开应用界面

如果浏览器没有自动打开,请手动访问 http://localhost:8501

验证成功

确认AI Pipeline Studio应用已正常运行

浏览器中看到AI Pipeline Studio界面
界面显示'Pipeline-first workspace'等标题
可以上传数据或开始创建新项目

快速提示

配置

使用Ollama运行本地模型:安装Ollama后运行 'ollama run llama3.2',然后在代码中设置 base_url='http://localhost:11434/v1'

性能

首次启动可能需要下载一些模型依赖,请耐心等待

其他

应用支持保存项目,可以选择仅保存元数据或完整数据

常见问题

1

pip install 失败,提示依赖冲突

创建新的虚拟环境:python -m venv venv,然后激活环境再安装

2

streamlit 命令未找到

确保已正确安装:pip install streamlit,或使用 python -m streamlit run

3

应用启动但无法使用AI功能

检查OPENAI_API_KEY环境变量是否正确设置,或切换到Ollama本地模型

4

端口8501被占用

停止占用端口的进程,或使用 streamlit run --server.port 8502 指定其他端口

下一步

尝试上传数据集

在应用中上传CSV文件,体验AI助手的数据加载和探索功能

探索其他示例应用

运行 apps/ 目录下的其他应用,如EDA Explorer和Pandas Data Analyst

查看示例代码

浏览 examples/ 目录了解各个AI智能体的使用方法

助手