5分钟上手 LangExtract

通过本指南,您将快速安装 LangExtract 并运行第一个文本信息提取示例,体验从非结构化文本中提取结构化数据的过程。

环境要求

支持的操作系统

macOS Windows Linux

运行环境

Python >= 3.8 必需

所需工具

pip

Python 包管理器,用于安装 LangExtract

必需

操作步骤

1

安装 LangExtract

使用 pip 从 PyPI 安装最新版本的 LangExtract。建议在虚拟环境中操作。

安装核心库
pip install langextract

预期结果:终端显示 Successfully installed langextract-x.x.x 及一系列依赖包。

如果遇到权限问题,可以尝试在命令前加上 `--user` 或使用虚拟环境。

2

设置 API 密钥(使用云端模型)

要使用默认的 Gemini 模型,您需要一个 Google AI Studio 的 API 密钥。这是运行示例的关键一步。

在 Linux/macOS 终端中设置环境变量
export GOOGLE_API_KEY="YOUR_API_KEY"
在 Windows 命令提示符中设置环境变量
set GOOGLE_API_KEY=YOUR_API_KEY

预期结果:无直接输出,但后续步骤需要此密钥才能成功调用模型。

更推荐的方式是创建一个 `.env` 文件,写入 `GOOGLE_API_KEY=YOUR_API_KEY`,然后在代码中使用 `dotenv` 加载。请前往 https://aistudio.google.com/apikey 获取密钥。

3

运行第一个提取示例

创建一个简单的 Python 脚本,定义提取任务并处理一段文本。

预期结果:脚本运行后,将输出提取到的结构化信息列表,并生成一个名为 `my_first_extraction.jsonl` 的结果文件。

请将 `YOUR_API_KEY` 替换为您在步骤2中获取的真实密钥。

验证成功

运行示例脚本后,检查以下两点以确认安装和配置成功:

控制台打印出提取到的结构化信息(一个包含 `text` 和 `attributes` 的字典列表)。
当前目录下生成了 `my_first_extraction.jsonl` 文件。

快速提示

性能

对于大多数任务,`gemini-2.5-flash` 模型在速度、成本和质量上提供了最佳平衡。

配置

示例中的 `extractiontext` 最好直接来自原文,并按出现顺序排列,以获得最佳效果。库默认会检查并提示示例与提示的对齐情况。

性能

处理长文档时,库会自动进行文本分块和并行处理,您只需直接传入长文本或URL即可。

常见问题

1

运行脚本时报错:`google.api_core.exceptions.PermissionDenied: 403 ... API key not valid. Please pass a valid API key.`

API 密钥无效或未正确设置。请确认:1) 密钥从 Google AI Studio 获取且未过期;2) 环境变量名是 `GOOGLE_API_KEY`;3) 在运行脚本的终端中已设置该变量。

2

安装失败,提示 `Could not find a version that satisfies the requirement langextract` 或类似错误。

请确保 pip 已更新 (`pip install --upgrade pip`),并且 Python 版本 >= 3.8。也可以尝试指定 PyPI 源:`pip install langextract -i https://pypi.org/simple`。

3

运行提取时速度很慢或没有输出。

可能是网络问题或模型服务暂时不可用。可以尝试:1) 检查网络连接;2) 稍后重试;3) 考虑使用本地模型(如通过 Ollama)以避免网络依赖。

下一步

生成交互式可视化报告

使用 `lx.visualize` 函数,将上一步生成的 `.jsonl` 文件转换为一个可交互的 HTML 文件,在浏览器中查看高亮显示的提取结果。

尝试处理长文档或 URL

修改脚本,将 `input_text` 替换为一个长文本字符串或一个 URL(如 `input_text = lx.utils.read_url('https://...')`),体验库对长文档的优化处理能力。

探索更多示例

查看项目 README 中的 `More Examples` 部分,运行如“罗密欧与朱丽叶”全文提取或药物提取等更复杂的示例。

助手