大家试试这个抓页面特定内容的web应用如何? 可以用来抢票,实时监控特定页面部分 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
people2net
V2EX    Java

大家试试这个抓页面特定内容的web应用如何? 可以用来抢票,实时监控特定页面部分

  •  
  •   people2net 2012-07-20 11:40:50 +08:00 5807 次点击
    这是一个创建于 4835 天前的主题,其中的信息可能已经有所发展或是发生改变。
    使用jsoup/jquery开发的web应用

    http://www.gbin1.com/technology/democenter/20120720jsoupjquerysnatchpage/indexhtml

    可以指定按特定时间间隔抓取页面中指定的元素。 效果还不错,大家觉得如何?
    17 条回复    1970-01-01 08:00:00 +08:00
    people2net
        1
    people2net  
    OP
       2012-07-20 11:46:08 +08:00
    大家也可以抓新浪首页的滚动消息:

    地址:http://weibo.com/
    元素:.itemt
    间隔:10
    bcxx
        2
    bcxx  
       2012-07-20 12:00:07 +08:00
    啊!好犀利!

    楼主你好,楼主再见!
    binux
        3
    binux  
       2012-07-20 12:21:57 +08:00
    siteproxy.jsp

    没意思。。
    people2net
        4
    people2net  
    OP
       2012-07-20 13:01:41 +08:00
    一个简单的实现,大家可以完善
    dongbeta
        5
    dongbeta  
       2012-07-20 13:05:51 +08:00
    ... JAVA 节点 ...
    cxh116
        6
    cxh116  
       2012-07-20 13:07:27 +08:00
    本地运行就没有啥意思了 如果运行在服务器到时还不错
    js解析是个大问题,直接运行个浏览器机子的配置要强 不过估计并发还是上不去
    manhere
        7
    manhere  
       2012-07-20 13:14:01 +08:00
    要抓取的东西没有id怎么办?
    chairo
        8
    chairo  
       2012-07-20 13:31:10 +08:00
    抓过来没样式没js的有啥用?
    BOYPT
        9
    BOYPT  
       2012-07-20 13:41:51 +08:00
    @manhere 这是个java库jsoup解析HTML的例子,使用jquery的选择器语句灵活选择。

    Python里面也有个pyquery,完全封装了jquery的操作方式,处理HTML特别方便的。
    valianliu
        10
    valianliu  
       2012-07-20 13:51:22 +08:00   1
    有个Chrome插件叫Page Monitor我会随便告诉你么。。。。。
    muzuiget
        11
    muzuiget  
       2012-07-20 15:48:54 +08:00
    @BOYPT 不是的,抓包发现有个「siteproxy.jsp」 用服务器实现跨域取得页面内容,然后扔回浏览器用 JQuery 解析

    注定抓不了需要登录的页面了,还不如直接用浏览器扩展脚本搞定,浏览器扩展脚本的xmlHttpRequest 有跨域权限。
    csx163
        12
    csx163  
       2012-07-20 17:02:20 +08:00
    支持xpath就完美了
    BOYPT
        13
    BOYPT  
       2012-07-21 22:28:50 +08:00
    @muzuiget 这也需要抓包么,人家源码里面写着好吧。然后这个页面是文章 http://www.gbin1.com/technology/javautilities/20120720jsoupjquerysnatchpage/ 的例子好吧。
    muzuiget
        14
    muzuiget  
       2012-07-22 00:15:48 +08:00
    @BOYPT 一开始没想到会去看源码吧,用 httpfox 监视一下就马上看到结果了。

    好吧,确实是服务器解析抓取的内容,因为我瞄了返回的 HTML,看到 html/head 标签以及一大票内容就以为是把目标页面的 HTML 发过来了,而不是仅仅抓取的内容的 HTML。那些多余内容都是广告和统计代码。
    CP9
        15
    CP9  
       2012-07-23 10:04:31 +08:00
    这个东西怎么用啊?可以用来抓去网站的一些壁纸吗?求使用方法
    xingzhi
        16
    xingzhi  
       2012-07-24 14:12:42 +08:00
    请教,在抓取内容时,遇到要ajax加载才能出现的内容怎么办呢
    people2net
        17
    people2net  
    OP
       2012-07-24 14:19:02 +08:00
    那你可以考虑抓加载使用的容器
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1117 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 17:47 PVG 01:47 LAX 10:47 JFK 13:47
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86