需求: 上传文件( PDF 、WORD 、TXT ),支持关键字检索,可以搜索文本内容。
大家有没有好的方案实现、或者当前开源的比较好的方案。
现在我想的是识别文本内容,再结合 ES 。还有其它方案吗?
1
saulshao 2021-11-12 17:05:07 +08:00
基本就是你说的了,别的也比较费劲。
|
2
czfy 2021-11-12 17:15:01 +08:00
要搜索文本基本就是 ES 了
word 和 txt 还好 PDF OCR 可能还要费点心思,效果不一定好 |
3
encro 2021-11-12 19:31:09 +08:00
1 ,word ,ppt 转 pdf ;(wps ,aliyun 服务等等都可以,不转直接读 word 文本也可以)
2 ,用 pdfbox 抽取 pdf 文本,然后放到 es 里面; 不用图像识别,性能太低了。 可以付费咨询我,哈哈,根据你熟悉的语言定制方案。 |
4
codingBug 2021-11-13 00:23:23 +08:00
很多文档网站用的 algolia
|
5
xuexiaoaoooo 2021-11-13 09:40:31 +08:00
Ingest Attachment Processor Plugin
|
8
lufyluo OP @xuexiaoaoooo 感谢,我去研究下
|