
1 loading 2013-06-05 16:52:21 +08:00 我还想说win32api呢… |
2 swulling 2013-06-05 16:55:24 +08:00 |
3 Nourl 2013-06-05 16:58:10 +08:00 思路: *.doc *.docx是由几个xml文件拼成的,后缀改成*.zip后打开可以看到这几个xml文件。 1. 提取xml文件 2. 脚本xml库读取需要的内容 |
4 homfen 2013-06-05 16:58:30 +08:00 用UTF8试试 |
5 lizheming 2013-06-05 16:59:51 +08:00 .doc(x)文档不就是一个压缩包么,你把后缀改成.zip解压就好了...东西一应俱全~ |
6 aisensiy OP |
7 leafgray 2013-06-05 19:50:39 +08:00 extract再自己getbytes转一下干什么呢? docx可以用docx4j.... doc主要还是poi... (JAVA) |
8 Part 2013-06-05 21:04:47 +08:00 @lizheming 解压了一下,表示没发现有内容文件,只有 _rels/.rels theme [Content_Types].xml |
9 xiaoxuxu 2013-06-05 21:18:37 +08:00 中文应该都是。以前试过用poi转成html,中文是正常的 |
11 micyng 2013-06-06 15:22:23 +08:00 docx有标准协议,直接看协议文档不就好了 |
12 dreampuf 2013-06-06 15:34:27 +08:00 MS Office 有两种协议 97(H*F)和03(X**F),不要自己解压然后解析,开源最成熟(相对)是Apache POI,例子 http://poi.apache.org/text-extraction.html 如果是单纯导出文本也可以借鉴基于POI的 tika http://tika.apache.org/ > The Apache Tika toolkit detects and extracts metadata and structured text content from various documents using existing parser libraries. |
13 Muninn 2013-06-06 15:36:01 +08:00 好勤奋呀,研究这个,我都是直接用库或者Win32 API的 |