pdf-to-text

话题找到数量

docling-project/docling

为生成式人工智能准备好你的文档

53k
3.6k
239
+87
排名 #10
2月14日
查看详情

Unstructured-IO/unstructured

轻松将文档转换为结构化数据。Unstructured是开源的ETL解决方案,可将复杂文档转换为适合语言模型的整洁结构化格式。访问我们的网站了解企业级平台产品,支持生产级工作流、分区、增强、分块和嵌入。

14k
1.2k
243
+336
排名 #13
3月25日
查看详情

yfedoseev/pdf_oxide

Python与Rust最快的PDF库。支持文本提取、图像提取、Markdown转换、PDF创建与编辑。平均耗时0.8毫秒,比行业领先产品快5倍,在3830份PDF测试中通过率100%。采用MIT/Apache-0双协议。

373
38
132
+93
排名 #13
3月6日
查看详情
助手