5分钟上手 LangExtract
通过本指南,您将快速安装 LangExtract 并运行第一个文本信息提取示例,体验从非结构化文本中提取结构化数据的过程。
环境要求
支持的操作系统
运行环境
所需工具
Python 包管理器,用于安装 LangExtract
操作步骤
安装 LangExtract
使用 pip 从 PyPI 安装最新版本的 LangExtract。建议在虚拟环境中操作。
pip install langextract
预期结果:终端显示 Successfully installed langextract-x.x.x 及一系列依赖包。
如果遇到权限问题,可以尝试在命令前加上 `--user` 或使用虚拟环境。
设置 API 密钥(使用云端模型)
要使用默认的 Gemini 模型,您需要一个 Google AI Studio 的 API 密钥。这是运行示例的关键一步。
export GOOGLE_API_KEY="YOUR_API_KEY"
set GOOGLE_API_KEY=YOUR_API_KEY
预期结果:无直接输出,但后续步骤需要此密钥才能成功调用模型。
更推荐的方式是创建一个 `.env` 文件,写入 `GOOGLE_API_KEY=YOUR_API_KEY`,然后在代码中使用 `dotenv` 加载。请前往 https://aistudio.google.com/apikey 获取密钥。
运行第一个提取示例
创建一个简单的 Python 脚本,定义提取任务并处理一段文本。
预期结果:脚本运行后,将输出提取到的结构化信息列表,并生成一个名为 `my_first_extraction.jsonl` 的结果文件。
请将 `YOUR_API_KEY` 替换为您在步骤2中获取的真实密钥。
验证成功
运行示例脚本后,检查以下两点以确认安装和配置成功:
快速提示
对于大多数任务,`gemini-2.5-flash` 模型在速度、成本和质量上提供了最佳平衡。
示例中的 `extractiontext` 最好直接来自原文,并按出现顺序排列,以获得最佳效果。库默认会检查并提示示例与提示的对齐情况。
处理长文档时,库会自动进行文本分块和并行处理,您只需直接传入长文本或URL即可。
常见问题
运行脚本时报错:`google.api_core.exceptions.PermissionDenied: 403 ... API key not valid. Please pass a valid API key.`
API 密钥无效或未正确设置。请确认:1) 密钥从 Google AI Studio 获取且未过期;2) 环境变量名是 `GOOGLE_API_KEY`;3) 在运行脚本的终端中已设置该变量。
安装失败,提示 `Could not find a version that satisfies the requirement langextract` 或类似错误。
请确保 pip 已更新 (`pip install --upgrade pip`),并且 Python 版本 >= 3.8。也可以尝试指定 PyPI 源:`pip install langextract -i https://pypi.org/simple`。
运行提取时速度很慢或没有输出。
可能是网络问题或模型服务暂时不可用。可以尝试:1) 检查网络连接;2) 稍后重试;3) 考虑使用本地模型(如通过 Ollama)以避免网络依赖。
下一步
生成交互式可视化报告
使用 `lx.visualize` 函数,将上一步生成的 `.jsonl` 文件转换为一个可交互的 HTML 文件,在浏览器中查看高亮显示的提取结果。
尝试处理长文档或 URL
修改脚本,将 `input_text` 替换为一个长文本字符串或一个 URL(如 `input_text = lx.utils.read_url('https://...')`),体验库对长文档的优化处理能力。
探索更多示例
查看项目 README 中的 `More Examples` 部分,运行如“罗密欧与朱丽叶”全文提取或药物提取等更复杂的示例。
相关项目推荐
public-apis/public-apis
免费API资源汇总列表
EbookFoundation/free-programming-books
📚 免费提供的编程书籍
donnemartin/system-design-primer
学习如何设计大规模系统。为系统设计面试做准备。包含Anki记忆卡片。
vinta/awesome-python
精心整理的优质Python框架、库、软件及资源列表
TheAlgorithms/Python
所有算法均使用Python实现
Significant-Gravitas/AutoGPT
AutoGPT致力于实现人人可用的普惠AI,让每个人都能使用和构建AI。我们的使命是提供工具,让您专注于重要事务。