google/langextract - 快速上手

❤️❤️❤️❤️❤️❤️ 我们已经正式推出微信小程序，在微信中搜索 TrendForge Pro 即可使用小程序，如果使用 Telegram 请搜索 trendforge_tg ❤️❤️❤️❤️❤️❤️

项目介绍快速开始学习路径项目截图 1 贡献者 16 增长趋势 Commit 历史代码统计生态关系项目时间线项目竞品依赖分析上榜历史

5分钟上手 LangExtract

通过本指南，您将快速安装 LangExtract 并运行第一个文本信息提取示例，体验从非结构化文本中提取结构化数据的过程。

环境要求

支持的操作系统

macOS Windows Linux

运行环境

Python >= 3.8 必需

所需工具

pip

Python 包管理器，用于安装 LangExtract

必需

操作步骤

安装 LangExtract

使用 pip 从 PyPI 安装最新版本的 LangExtract。建议在虚拟环境中操作。

安装核心库

pip install langextract

预期结果：：终端显示 Successfully installed langextract-x.x.x 及一系列依赖包。

如果遇到权限问题，可以尝试在命令前加上 `--user` 或使用虚拟环境。

设置 API 密钥（使用云端模型）

要使用默认的 Gemini 模型，您需要一个 Google AI Studio 的 API 密钥。这是运行示例的关键一步。

在 Linux/macOS 终端中设置环境变量

export GOOGLE_API_KEY="YOUR_API_KEY"

在 Windows 命令提示符中设置环境变量

set GOOGLE_API_KEY=YOUR_API_KEY

预期结果：：无直接输出，但后续步骤需要此密钥才能成功调用模型。

更推荐的方式是创建一个 `.env` 文件，写入 `GOOGLE_API_KEY=YOUR_API_KEY`，然后在代码中使用 `dotenv` 加载。请前往 https://aistudio.google.com/apikey 获取密钥。

运行第一个提取示例

创建一个简单的 Python 脚本，定义提取任务并处理一段文本。

预期结果：：脚本运行后，将输出提取到的结构化信息列表，并生成一个名为 `my_first_extraction.jsonl` 的结果文件。

请将 `YOUR_API_KEY` 替换为您在步骤2中获取的真实密钥。

验证成功

运行示例脚本后，检查以下两点以确认安装和配置成功：

控制台打印出提取到的结构化信息（一个包含 `text` 和 `attributes` 的字典列表）。

当前目录下生成了 `my_first_extraction.jsonl` 文件。

快速提示

性能

对于大多数任务，`gemini-2.5-flash` 模型在速度、成本和质量上提供了最佳平衡。

配置

示例中的 `extractiontext` 最好直接来自原文，并按出现顺序排列，以获得最佳效果。库默认会检查并提示示例与提示的对齐情况。

性能

处理长文档时，库会自动进行文本分块和并行处理，您只需直接传入长文本或URL即可。

常见问题

运行脚本时报错：`google.api_core.exceptions.PermissionDenied: 403 ... API key not valid. Please pass a valid API key.`

API 密钥无效或未正确设置。请确认：1) 密钥从 Google AI Studio 获取且未过期；2) 环境变量名是 `GOOGLE_API_KEY`；3) 在运行脚本的终端中已设置该变量。

安装失败，提示 `Could not find a version that satisfies the requirement langextract` 或类似错误。

请确保 pip 已更新 (`pip install --upgrade pip`)，并且 Python 版本 >= 3.8。也可以尝试指定 PyPI 源：`pip install langextract -i https://pypi.org/simple`。

运行提取时速度很慢或没有输出。

可能是网络问题或模型服务暂时不可用。可以尝试：1) 检查网络连接；2) 稍后重试；3) 考虑使用本地模型（如通过 Ollama）以避免网络依赖。

下一步

生成交互式可视化报告

使用 `lx.visualize` 函数，将上一步生成的 `.jsonl` 文件转换为一个可交互的 HTML 文件，在浏览器中查看高亮显示的提取结果。

尝试处理长文档或 URL

修改脚本，将 `input_text` 替换为一个长文本字符串或一个 URL（如 `input_text = lx.utils.read_url('https://...')`），体验库对长文档的优化处理能力。

探索更多示例

查看项目 README 中的 `More Examples` 部分，运行如“罗密欧与朱丽叶”全文提取或药物提取等更复杂的示例。