![]() | 1 people2net OP |
![]() | 2 bcxx 2012-07-20 12:00:07 +08:00 啊!好犀利! 楼主你好,楼主再见! |
![]() | 3 binux 2012-07-20 12:21:57 +08:00 siteproxy.jsp 没意思。。 |
![]() | 4 people2net OP 一个简单的实现,大家可以完善 |
![]() | 5 dongbeta 2012-07-20 13:05:51 +08:00 ... JAVA 节点 ... |
![]() | 6 cxh116 2012-07-20 13:07:27 +08:00 本地运行就没有啥意思了 如果运行在服务器到时还不错 js解析是个大问题,直接运行个浏览器机子的配置要强 不过估计并发还是上不去 |
![]() | 7 manhere 2012-07-20 13:14:01 +08:00 要抓取的东西没有id怎么办? |
![]() | 8 chairo 2012-07-20 13:31:10 +08:00 抓过来没样式没js的有啥用? |
9 BOYPT 2012-07-20 13:41:51 +08:00 |
![]() | 10 valianliu 2012-07-20 13:51:22 +08:00 ![]() 有个Chrome插件叫Page Monitor我会随便告诉你么。。。。。 |
![]() | 11 muzuiget 2012-07-20 15:48:54 +08:00 @BOYPT 不是的,抓包发现有个「siteproxy.jsp」 用服务器实现跨域取得页面内容,然后扔回浏览器用 JQuery 解析 注定抓不了需要登录的页面了,还不如直接用浏览器扩展脚本搞定,浏览器扩展脚本的xmlHttpRequest 有跨域权限。 |
![]() | 12 csx163 2012-07-20 17:02:20 +08:00 支持xpath就完美了 |
13 BOYPT 2012-07-21 22:28:50 +08:00 @muzuiget 这也需要抓包么,人家源码里面写着好吧。然后这个页面是文章 http://www.gbin1.com/technology/javautilities/20120720jsoupjquerysnatchpage/ 的例子好吧。 |
![]() | 14 muzuiget 2012-07-22 00:15:48 +08:00 @BOYPT 一开始没想到会去看源码吧,用 httpfox 监视一下就马上看到结果了。 好吧,确实是服务器解析抓取的内容,因为我瞄了返回的 HTML,看到 html/head 标签以及一大票内容就以为是把目标页面的 HTML 发过来了,而不是仅仅抓取的内容的 HTML。那些多余内容都是广告和统计代码。 |
![]() | 15 CP9 2012-07-23 10:04:31 +08:00 这个东西怎么用啊?可以用来抓去网站的一些壁纸吗?求使用方法 |
![]() | 16 xingzhi 2012-07-24 14:12:42 +08:00 请教,在抓取内容时,遇到要ajax加载才能出现的内容怎么办呢 |
![]() | 17 people2net OP 那你可以考虑抓加载使用的容器 |