有没有专门智能解析 PDF 的开源模型？

This topic created in 768 days ago, the information mentioned may be changed or developed.

一堆 pdf 报告，文字版。
不同机构出具，因此具有不同的格式。
目前的需求是：提取其中的结论部分。这个结论区块，标题可能叫“XX 结论”或者“专家意见”或者别的，可能是文字段落或者表格，也可能中间被换页了(很可能有页眉页脚)。
之间尝试 python 提取文字，再根据规则匹配。费了不少时间，没成功，中断了。
刚刚试了 kimi ，给 kimi 点提示，kimi 居然很出色地完成了这个工作。
但 kimi 的缺点：联网有数据泄漏风险，量大了可不便宜。
所以，有没有能完成这工作的开源模型，最好是专用或者优化后能在普通低配服务器上跑起来的。

Supplement 1 · May 14, 2024

注意：需求是提取 pdf 中的指定部分，不是提供一个以文档作为知识库的对话 AI

PDF

解析

结论

6 replies • 2024-07-13 02:24:32 +08:00