![]() | 1 yangqi 2013-09-25 23:50:30 +08:00 php正则还是最方便了,这个放在前段用jquery很容易就提取了 |
![]() | 3 emric 2013-09-25 23:54:20 +08:00 Don't try to parse HTML using regex. Find an HTML parser please. |
![]() | 4 kojp 2013-09-25 23:57:51 +08:00 via Android A class named snopy Have a try. |
![]() | 6 PrideChung 2013-09-26 00:01:57 +08:00 对于HTML这么复杂的文本正则处理不来的,找个HTML parser才是正道。 |
![]() | 7 pantaovay 2013-09-26 00:09:00 +08:00 正则处理不来,用DOM操作吧 |
![]() | 8 jacy OP 谢谢,我试试simplehtml。 |
![]() | 9 mescoda 2013-09-26 00:31:01 +08:00 ![]() PHP 用 simplehtmldom Python 用 [pywebquery](https://github.com/NStal/pywebquery) Node 用 [jwebquery](https://github.com/NStal/jwebquery) |
![]() | 11 foru17 2013-09-26 01:19:07 +08:00 我记得正则好像是行的。你搜一下 google 搜索结果 正则,参考一下,之前弄过一个类似的。 |
![]() | 12 faceair 2013-09-26 06:38:15 +08:00 <div class=\"content\">([\s\S]+?(<div[\s\S]+?<\/div>)+?[\s\S]+?)<\/div> 手机写的,你测试下,主要是确定中间的div是一对一对就可以了 |
![]() | 13 liuyao729 2013-09-26 07:02:33 +08:00 试试phpQuery |
![]() | 14 faceair 2013-09-26 07:28:11 +08:00 修改了下,测试貌似通过了 <div class=\"content\">([\s\S]+?(<div[\s\S]+?<\/div>)*?[\s\S]+?)*?<\/div> |
![]() | 15 alexrezit 2013-09-26 07:39:52 +08:00 不 要 用 正 则. 找 个 parser 用 XPath 很 难 么? |
![]() | 16 cxshun 2013-09-26 08:51:24 +08:00 其实xpath不是更方便么,直接//div[class='content']/*这个就OK啦。正则解析HTML是没办法的选择。 |
![]() | 17 jiych 2013-09-26 09:14:24 +08:00 可以用flex |
![]() | 18 junp 2013-09-26 09:25:32 +08:00 前端方便 |
![]() | 19 marchtea 2013-09-26 13:50:20 +08:00 用simple_html_dom来读取,再处理吧.直接弄貌似不是很好弄 |