1
loading 2013-06-05 16:52:21 +08:00
我还想说win32api呢…
|
2
swulling 2013-06-05 16:55:24 +08:00
|
3
Nourl 2013-06-05 16:58:10 +08:00 2
思路:
*.doc *.docx是由几个xml文件拼成的,后缀改成*.zip后打开可以看到这几个xml文件。 1. 提取xml文件 2. 脚本xml库读取需要的内容 |
4
homfen 2013-06-05 16:58:30 +08:00
用UTF8试试
|
5
lizheming 2013-06-05 16:59:51 +08:00 1
.doc(x)文档不就是一个压缩包么,你把后缀改成.zip解压就好了...东西一应俱全~
|
6
aisensiy OP |
7
leafgray 2013-06-05 19:50:39 +08:00
extract再自己getbytes转一下干什么呢?
docx可以用docx4j.... doc主要还是poi... (JAVA) |
8
Part 2013-06-05 21:04:47 +08:00
@lizheming 解压了一下,表示没发现有内容文件,只有 _rels/.rels theme [Content_Types].xml
|
9
xiaoxuxu 2013-06-05 21:18:37 +08:00
中文应该都是GB2312。以前试过用poi转成html,中文是正常的
|
11
micyng 2013-06-06 15:22:23 +08:00
docx有标准协议,直接看协议文档不就好了
|
12
dreampuf 2013-06-06 15:34:27 +08:00
MS Office 有两种协议 97(H*F)和03(X**F),不要自己解压然后解析,开源最成熟(相对)是Apache POI,例子 http://poi.apache.org/text-extraction.html
如果是单纯导出文本也可以借鉴基于POI的 tika http://tika.apache.org/ > The Apache Tika™ toolkit detects and extracts metadata and structured text content from various documents using existing parser libraries. |
13
Muninn 2013-06-06 15:36:01 +08:00
好勤奋呀,研究这个,我都是直接用库或者Win32 API的
|