1
soho176 OP 找到了这个办法。
antiword 是 linux 及其他 RISC OS 下免费的 ms word 文档读取器。使用它可以很方便的在 Linux 中读取 word 文档并输出为纯文本字符串。 下载地址: http://www.winfield.demon.nl 下载后解压、编译安装: tar -zxvf antiword-0.37.tar.gz cd antiword-0.37 make make install 默认安装到当前账户下的 bin 目录中。 使用: 终端中 /home/pi/bin/antiword antiword-test.doc 其他语言中通过各自执行系统命令的方式来执行,比如 Python 中: import subprocess word_file = "antiword-test.doc" content = subprocess.check_output(["/home/pi/antiword", word_file]) print content |
2
soho176 OP 但是这个办法是 Linux 下的有没有 win 下的办法那?
|
3
xuegj1010 2018-05-21 21:24:39 +08:00
先用 win32com 把 doc 转换成 docx,然后再用 python-docx 读 docx 就比较好处理了
|
4
soho176 OP @xuegj1010 这个办法我试过了,doc 转 docx 的时候电脑会打开 doc 文件,好像我这盗版的有啥文件缺失,没法转成功
|
6
PythonAnswer 2018-05-21 23:38:01 +08:00 via iPhone
找台电脑转 docx
|
7
Arnie97 2018-05-23 01:17:09 +08:00 via Android
我非常确定 Antiword 支持 Windows,我在 Windows 下用它来实现 Word 文档的 git diff。
|