
1 germ 2013-06-06 22:38:09 +08:00 jsoup可以看下 |
3 zoran 2013-06-07 11:06:26 +08:00 |
4 tititake 2013-06-07 11:38:07 +08:00 用过这个 http://nekohtml.sourceforge.net/ 不知道是不是最方便的。 |
5 TheMan 2013-06-07 11:55:15 +08:00 via Android 嗯,正则写的话有些麻烦,可以看这个例子,不错 |
6 TheMan 2013-06-07 11:57:06 +08:00 via Android 可以看下这个例子:http://usejava.iteye.com/blog/724177 ps:正则表达式熟练掌握了的话,好处多多 |
7 jjlovegrape 2013-06-07 12:38:14 +08:00 LZ可以考虑用Node + jsdom插件 + jquery,处理Html应该会方便一点。 |
8 Linxing OP @jjlovegrape jquery不懂啊,jsoup可以做简单的处理,昨晚写完已经把 http://udpwork.com 上面的文章都爬完了,但是感觉处理的不太好,换一个网站就要改蛮多内容的吧,还要努力 |
10 ttskym 2013-06-09 12:45:34 +08:00 jsoup+正则。http://www.open-open.com/jsoup/ |
11 seeker 2013-06-09 13:14:30 +08:00 @jjlovegrape 如果dom有地方由Javascript生成的,jsdom就不行了。用phantomjs可以完美解决。 |
12 jjlovegrape 2013-06-09 17:41:14 +08:00 @seeker good,感谢分享。taobao好像用Node写过一个页面自动化测试工具,猜测是不是基于类似的? |
13 seeker 2013-06-09 20:30:19 +08:00 @jjlovegrape 不清楚哎。不过phantomjs跟node不是一回事哦。 |
14 code4craft 2013-06-09 21:47:36 +08:00 可以使用jsoup,或者htmlcleaner(可用xpath)。一定程度的智能化的也可以做到的,标题可以直接用<title>标签加上后缀去重,内容可以用readability技术(http://en.wikipedia.org/wiki/Readability)。我写过一个爬虫框架,其中有比较粗糙的readability实现(https://github.com/code4craft/webmagic/blob/master/webmagic-core/src/main/java/us/codecraft/webmagic/selector/SmartContentSelector.java)。这里有篇博客,关于如何使用的:http://my.oschina.net/flashsword/blog/136846。感兴趣的可以一起改进一下。 |
15 Linxing OP @code4craft 谢了!写的不错 |