pdf-to-text
话题找到数量
Unstructured-IO/unstructured
轻松将文档转换为结构化数据。Unstructured是开源的ETL解决方案,可将复杂文档转换为适合语言模型的整洁结构化格式。访问我们的网站了解企业级平台产品,支持生产级工作流、分区、增强、分块和嵌入。
14k
1.2k
243
+336
yfedoseev/pdf_oxide
Python与Rust最快的PDF库。支持文本提取、图像提取、Markdown转换、PDF创建与编辑。平均耗时0.8毫秒,比行业领先产品快5倍,在3830份PDF测试中通过率100%。采用MIT/Apache-0双协议。
373
38
132
+93