![]() | 1 jtn007 2014-09-15 17:54:17 +08:00 直接另存为html? |
2 Automan 2014-09-15 17:58:13 +08:00 ![]() 之前做杂志App的时候也遇到过这个问题,稿件是 word,杂志的内容格式是 HTML 我的解决方法是另存为,再用正则替换掉所有不需要的代码 |
![]() | 5 lincanbin 2014-09-15 19:43:57 +08:00 ![]() @regmach 如果你是PHP用户,可以直接用strip_tags。 Python的话显然就比较麻烦了,我没找到比较好用的模块,一般都是用re 一个个白名单匹配出来 |
![]() | 6 loading 2014-09-15 20:53:34 +08:00 via iPad rtf格式,不过没图 |
![]() | 7 a href="/member/darkmi" class="dark">darkmi 2014-09-15 21:59:12 +08:00 ![]() Aspose.Words,完美方案,价格不菲。 |
10 em70 2014-09-15 23:04:33 +08:00 via Android ![]() 只是为了网页显示目的吗 |
![]() | 11 regmach OP |
12 Automan 2014-09-16 01:03:59 +08:00 ![]() function rplace($filename) { $cOntent= file_get_contents($filename); $cOntent= str_replace('<meta name=Generator cOntent="Microsoft Word 11 (filtered)">', ' <link rel="stylesheet" type="text/css" href="css/book.css"> ', $content); $cOntent= preg_replace('/<\/?SPAN[^>]*>/i', '', $content); // Class $cOntent= preg_replace('/<(\w[^>]*) class=([^ |>]*)([^>]*)/i', "<$1$3", $content); // Style $cOntent= preg_replace('/<(\w[^>]*) style=([^ |>]*)([^>]*)/i', "<$1$3", $content); // Lang $cOntent= preg_replace('/<(\w[^>]*) lang=([^ |>]*)([^>]*)/i', "<$1$3", $content); $cOntent= str_replace('<p> </p>', '', $content); $cOntent= preg_replace('/<style>([\s\S]*)<\/style>/i', "", $content); $cOntent= preg_replace('/<(\w[^>]*) height=([^ |>]*)([^>]*)/i', "<$1$3", $content); echo $content; file_put_contents($filename, $content); } 因为我还要保留其他格式,所以只去除了一部分标签,如果你只要 Table,用strip_tags可能更好一点。 比如 strip_tags($data, '<table><b><p><td><tr><th><tbody>'); |