如何读取 .doc .docx 的文本内容...

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 4793 days ago, the information mentioned may be changed or developed.

自己 search 了一下，找到了 Apache 下的一个项目 POI。尝试了一下，发现中文乱码问题无法解决 T_T。小崩溃。

主要是 .doc 或者 .docx 里面的编码是神马啊。

code 在这里 https://gist.github.com/aisensiy/5712530

希望有经验的同学帮帮忙。

如果这个方法行不通，不知有没有其他的方式呢。主要是希望在 *nix 平台可以适用。

Supplement 1 · Jun 6, 2013

POITextExtractor poitex =
ExtractorFactory.createExtractor(new File(filename));
String text2007 = new String(poitex.getText().getBytes("GB2312"));
System.out.println(text2007);

我尝试做 GB2312 的转码，这样似乎不行。

docx

doc

乱码

13 replies • 1970-01-01 08:00:00 +08:00

loading

Jun 5, 2013

我还想说win32api呢…

swulling

Jun 5, 2013

http://dag.wieers.com/home-made/unoconv/

转成txt看

Nourl

Jun 5, 2013

思路：
*.doc *.docx是由几个xml文件拼成的，后缀改成*.zip后打开可以看到这几个xml文件。
1. 提取xml文件
2. 脚本xml库读取需要的内容

homfen

Jun 5, 2013

用UTF8试试

lizheming

Jun 5, 2013

.doc(x)文档不就是一个压缩包么，你把后缀改成.zip解压就好了...东西一应俱全~

aisensiy

Jun 5, 2013

@lizheming
@Nourl

多谢指点，看到主要内容了。但是，xml 依然一片混乱啊，样式混杂，没有和排版出来的一一对应关系。

leafgray

Jun 5, 2013

extract再自己getbytes转一下干什么呢？
docx可以用docx4j.... doc主要还是poi... (JAVA)

Part

Jun 5, 2013

@lizheming 解压了一下，表示没发现有内容文件，只有 _rels/.rels theme [Content_Types].xml

xiaoxuxu

Jun 5, 2013

中文应该都是GB2312。以前试过用poi转成html，中文是正常的

lizheming

Jun 5, 2013

@Part .doc的好像不是规范的协议，貌似不能单纯解压..原谅我的信口开河吧o(╯□╰)o

micyng

Jun 6, 2013

docx有标准协议，直接看协议文档不就好了

dreampuf

Jun 6, 2013

MS Office 有两种协议 97(H*F)和03(X**F)，不要自己解压然后解析，开源最成熟（相对）是Apache POI，例子 http://poi.apache.org/text-extraction.html
如果是单纯导出文本也可以借鉴基于POI的 tika http://tika.apache.org/

> The Apache Tika™ toolkit detects and extracts metadata and structured text content from various documents using existing parser libraries.

Muninn

Jun 6, 2013

好勤奋呀,研究这个,我都是直接用库或者Win32 API的