你写爬虫的目的是什么? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
kehr
V2EX    程序员

你写爬虫的目的是什么?

  •  
  •   kehr
    kehr 2014-03-25 20:55:01 +08:00 11864 次点击
    这是一个创建于 4220 天前的主题,其中的信息可能已经有所发展或是发生改变。
    相信许多人都写过自己的网络爬虫。说说促使你写爬虫的目的是什么?用到了那些技术和工具?留下地址大家围观一下 ~\(^o^)/~
    59 条回复    1970-01-01 08:00:00 +08:00
    janxin
        1
    janxin  
       2014-03-25 21:16:37 +08:00 via iPad
    写了这么久没写过爬虫…我不是合格程序员…
    wvidc
        2
    wvidc  
       2014-03-25 21:21:06 +08:00
    你猜猜
    ~\(^o^)/~
    john990
        3
    john990  
       2014-03-25 21:34:04 +08:00 via Android
    为自己的网站弄点数据
    paicha
        4
    paicha  
    PRO
       2014-03-25 21:37:22 +08:00
    微信公众号,教务系统成绩查询
    caiych
        5
    caiych  
       2014-03-25 23:01:51 +08:00
    ……看漫画……网站不给打包下载……
    以及抓一些数据测试算法……
    binux
        6
    binux  
       2014-03-25 23:06:40 +08:00   1
    这是我的工作。。
    xuxu
        7
    xuxu  
       2014-03-25 23:09:20 +08:00
    蛋疼的时候玩
    vitoziv
        8
    vitoziv  
       2014-03-25 23:32:59 +08:00
    毕业设计的时候,为了做一个移动版教务系统,爬了学校的教务系统数据..
    jsonline
        9
    jsonline  
       2014-03-25 23:47:29 +08:00
    每个月都能看见有人发布一个新的爬虫……
    reverland
        10
    reverland  
       2014-03-25 23:58:33 +08:00
    显然是为了搜集信息
    csx163
        11
    csx163  
       2014-03-26 00:22:05 +08:00
    抓H种子
    抓H图

    果然H是第一生产力啊
    WildCat
        12
    WildCat  
       2014-03-26 09:02:48 +08:00 via iPhone
    @paicha 这…怎么查?没API诶
    WildCat
        13
    WildCat  
       2014-03-26 09:04:38 +08:00 via iPhone
    @paicha
    @vitoziv

    求如何爬正方教务系统
    http://123.232.100.110:86

    @csx163
    你不怕查水表?
    Amoscoder
        14
    Amoscoder  
       2014-03-26 11:27:56 +08:00
    工具用的Mechanize。。

    @WildCat
    你爬正方的教务系统难点在哪儿?很容易啊。
    vilic
        15
    vilic  
       2014-03-26 12:04:44 +08:00
    主要是提高生产力吧, Marketing Research 之类的. 还有就是之前做的外包, 是 SEO 工具, 统计数据用的.
    另外现在自己的背单词应用也是爬的词库. 感觉经常会用到.
    @WildCat 哈哈, 说道这个还真的爬过教务处网站抓课表, 虽然那个项目后来没继续搞了. https://github.com/vilic/ClassScheduleProxy
    xavierskip
        16
    xavierskip  
       2014-03-26 12:51:24 +08:00
    美女图!妹子图!无聊图!
    kehr
        17
    kehr  
    OP
       2014-03-26 12:55:56 +08:00   1
    @Amoscoder
    @vilic

    你们的教务系统外网能够访问么?比如查成绩,查课表之类的?我们这里只能通过内网进行。

    如果外网无法访问,那么爬虫还能爬到数据么?
    bbiao
        18
    bbiao  
       2014-03-26 13:20:42 +08:00
    要是能匿名回答就好了。
    kehr
        19
    kehr  
    OP
       2014-03-26 13:36:30 +08:00
    @bbiao 查水表的没有那么快~
    vilic
        20
    vilic  
       2014-03-26 13:37:59 +08:00
    @kehr 多数教务网貌似外网还是能访问的诶。
    kehr
        21
    kehr  
    OP
       2014-03-26 13:40:32 +08:00
    @vilic 如果要爬外网无法访问的,有什么解决方法木有?
    wtbhk
        22
    wtbhk  
       2014-03-26 13:58:21 +08:00
    爬教务处的课表、成绩、补考、饭卡余额明细等。教务处太渣,爬下数据来重新组织排版缓存再给学生使用,还可以提供移动端访问。
    ChiangDi
        23
    ChiangDi  
       2014-03-26 14:02:47 +08:00 via Android
    无聊。
    vilic
        24
    vilic  
       2014-03-26 14:07:05 +08:00
    @kehr 用客户端访问咯, 然后服务器解析或者直接客户端解析就好了.
    moondark
        25
    moondark  
       2014-03-26 14:24:01 +08:00
    爬我校BBS,完成课程作业
    WildCat
        26
    WildCat  
       2014-03-26 14:25:36 +08:00 via iPhone
    @vilic
    @Amoscoder
    只能查自己的成绩和课表,怎么爬别人的?
    BackBox
        27
    BackBox  
       2014-03-26 14:48:46 +08:00 via iPhone
    @Amoscoder 怎么处理验证码?
    fange01
        28
    fange01  
       2014-03-26 15:04:11 +08:00
    @paicha 求共享源码。
    Actrace
        29
    Actrace  
       2014-03-26 15:43:04 +08:00
    用PHP写爬虫做了个网页搜索,code.so
    Amoscoder
        30
    Amoscoder  
       2014-03-26 16:06:15 +08:00
    @WildCat 这个没办法吧,只能用别人的账号模拟登陆
    Amoscoder
        31
    Amoscoder  
       2014-03-26 16:09:48 +08:00   1
    @BackBox 可以试下tesseract+imagemagick
    Amoscoder
        32
    Amoscoder  
       2014-03-26 16:10:52 +08:00
    @kehr 大部分教务系统还是可以外网访问的,内网的估计悬。
    yangxin0
        33
    yangxin0  
       2014-03-26 17:04:32 +08:00
    公司手游做猜球活动, 写了一个爬虫去爬实时比分数据。
    kslr
        34
    kslr  
       2014-03-26 17:12:54 +08:00
    爬xx种子,然后在本地建立数据库。
    kavi
        35
    kavi  
       2014-03-26 17:28:10 +08:00
    爬美女图,放在微信公众平台上
    airyland
        36
    airyland  
       2014-03-26 17:35:42 +08:00
    @paicha 如何采集公众号的数据?
    paicha
        37
    paicha  
    PRO
       2014-03-26 19:03:46 +08:00   1
    @WildCat
    @fange01

    水平太差就不好意思放源码啦,大致流程就是:
    获取学号密码模拟登录抓取成绩页面正则提取数据返回消息到微信。

    模拟登录的数据我是用 Chrome 开发者工具分析的,然后构造数据 POST 登录。(我们学校教务平台没验证码,所以可以3秒内完成查询)。

    贴个流程图:


    @airyland
    采集公众号的数据?什么意思
    WildCat
        38
    WildCat  
       2014-03-26 19:30:09 +08:00 via iPhone
    @paicha 我们有验证码,麻烦了
    xi4oh4o
        39
    xi4oh4o  
       2014-03-26 19:35:52 +08:00
    好用的库
    nokogirl
    phpquery
    用过这些

    curl+regular exp写过模拟登录pixiv,目的是分享自己帐号收藏的用户发布的作品。
    paicha
        40
    paicha  
    PRO
       2014-03-26 19:40:46 +08:00
    @WildCat
    要么试试有什么工具库可以识别,效率的话不知道可以不可以在微信5秒规定内完成。再者就看看能不能绕过验证码。入侵数据库也是一个……不过太危险了。
    这方面没什么经验,只能说一些想法~
    sb
        41
    sb  
       2014-03-26 19:45:53 +08:00   1
    @WildCat 直接模拟提交账号密码,不用验证码
    sb
        42
    sb  
       2014-03-26 19:52:26 +08:00
    @WildCat 或者有几个登录页面是没有验证码的,可以模拟提交。
    fengliu222
        43
    fengliu222  
       2014-03-26 20:05:21 +08:00
    当然是拿种子。。不过有了迅雷云播之后,都是直接拿磁力链接什么的~~~
    Lelouchcr
        44
    Lelouchcr  
       2014-03-26 22:07:02 +08:00
    一开始是给某妹子爬别人豆瓣上的照片。
    后来变成了工作。。。
    summic
        45
    summic  
       2014-03-26 22:11:37 +08:00
    爬股票数据做投资参考
    action
        46
    action  
       2014-03-26 23:10:20 +08:00
    爬直播
    airyland
        47
    airyland  
       2014-03-26 23:39:09 +08:00
    @paicha 我看到你答“微信公众号,教务系统成绩查询”,以为是你写爬虫去采集微信公众号的文章。原来不是么?
    cabinw
        48
    cabinw  
       2014-03-26 23:44:02 +08:00
    kimono解放了我
    paicha
        49
    paicha  
    PRO
       2014-03-26 23:53:50 +08:00
    @airyland 额,表达不当,我是说在微信公众号里做的开发。
    抓取微信这个有现成的应用: http://chuansong.me/
    9hills
        50
    9hills  
       2014-03-26 23:55:51 +08:00 via iPad
    @kehr 内网爬完美解决
    partysover
        51
    partysover  
       2014-03-27 01:30:22 +08:00   1
    抓数据,然后计算,包装打包卖。
    rainysia
        52
    rainysia  
       2014-03-27 02:13:59 +08:00   1
    我会说我在内网去抓了同事的工资条么...抓了后提了加薪... 加的没同事多...就走了...哎哎, 不作死就不会死
    mclxly
        53
    mclxly  
       2014-03-27 09:22:04 +08:00
    @summic 你是怎么做数据分析的?我当时爬了一段时间,积累了几千万的数据,后来没有很好的分析思路,就放弃了。
    sunocean
        54
    sunocean  
       2014-03-27 09:41:07 +08:00
    百度贴吧抓妹子图,我会乱说嘛
    summic
        55
    summic  
       2014-03-27 12:09:26 +08:00   1
    @mclxly 最简单的就是看量价比,更多分析方法参见腾讯股票频道的智能选股
    chengs2035
        56
    chengs2035  
       2014-03-27 12:56:33 +08:00
    曾经自己写过C#程序,把百度的所有图片爬下来,花了一天,10多T。。。
    dong3580
        57
    dong3580  
       2014-03-27 13:48:37 +08:00
    @chengs2035
    抓链接存到数据库,我会说你一天10T,好大的硬盘,到快的网速啊.
    anjiannian
        58
    anjiannian  
       2014-03-27 15:25:08 +08:00
    @rainysia 太可爱了
    Amoscoder
        59
    Amoscoder  
       2014-03-28 10:56:04 +08:00
    @9hills 内网你是如何解决的?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2933 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 14:42 PVG 22:42 LAX 07:42 JFK 10:42
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86