刚开始学习 Python 到可以写出一个爬虫大约需要多长时间 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
nj
V2EX    问与答

刚开始学习 Python 到可以写出一个爬虫大约需要多长时间

  •  
  •  
    nj 2014-12-31 10:35:31 +08:00 22928 次点击
    这是一个创建于 3941 天前的主题,其中的信息可能已经有所发展或是发生改变。

    请问对于初学者来说一开始买哪本书来看比较适合,到能写出一个爬虫的过程会很难吗?
    不好意思来伸手党一下,谢谢了。

    34 条回复    2016-05-10 20:11:30 +08:00
    xunyu
        1
    xunyu  
       2014-12-31 10:44:24 +08:00
    一周,自己用urllib实现
    Colorful
        2
    Colorful  
       2014-12-31 10:48:06 +08:00
    爬虫到底是什么,不太明白
    gangsta
        3
    gangsta  
       2014-12-31 10:48:39 +08:00   1
    时间肯定因人而异啊,但是第一个课后大作业好像是豆瓣福利组妹子图...
    nj
        4
    nj  
    OP
       2014-12-31 10:51:23 +08:00
    那这之前是有 Python 的基础了吧 @xunyu
    nj
        5
    nj  
    OP
       2014-12-31 10:51:55 +08:00
    你们是开这门课? @gangsta
    nj
        6
    nj  
    OP
       2014-12-31 10:52:48 +08:00
    我也不清楚,只不过最近有这方面的需要,想学一学 @Colorful
    tabris17
        7
    tabris17  
       2014-12-31 10:55:40 08:00
    2小时吧
    14
        8
    14  
       2014-12-31 10:56:13 +08:00 via Android
    ChanneW
        9
    ChanneW  
       2014-12-31 10:57:52 +08:00
    urllib2 urllib3 requests pyquery ,看完这四个就可以了.
    ericls
        10
    ericls  
       2014-12-31 10:59:14 +08:00 via Android
    一天吧
    fooevr
        11
    fooevr  
       2014-12-31 11:02:44 +08:00
    一天
    nilai
        12
    nilai  
       2014-12-31 11:09:28 +08:00
    scrapy 1小时
    sandideas
        13
    sandideas  
       2014-12-31 11:13:12 +08:00 via Android
    看你爬什么。。百度贴吧这种的一个小时就能爬了。
    Colorful
        14
    Colorful  
       2014-12-31 11:24:16 +08:00
    @ericls 求方法
    ilili
        15
    ilili  
       2014-12-31 11:37:05 +08:00
    刚开始学习Python到现在两年了我还是写不出,楼主不要像我这样……
    jianghu52
        16
    jianghu52  
       2014-12-31 11:52:03 +08:00
    这个时间是要看你有什么基础。如果你之前有过web开发经验,html/css,cookie session 什么随意玩玩的话,我估计爬虫你一天就搞定。要是你一点基础没有,哼哼。像我,半个月了,只会扒代码 %>_<%。
    decken
        17
    decken  
       2014-12-31 11:59:09 +08:00
    cloudyplain
        18
    cloudyplain  
       2014-12-31 12:24:33 +08:00
    一下午,参考了nodejs实战,学习了nodejs爬一个博客 python应该差不太多
    ericls
        19
    ericls  
       2014-12-31 12:31:41 +08:00
    danmary61
        20
    danmary61  
       2014-12-31 12:32:09 +08:00
    这个要看你自己的情况。如果只是爬某个数据,其实不用花时间学,找个源码自己攒一个也是能行的。我最开始只是想爬淘宝二手,花了一天看了下基础的东西然后就修改别人的代码实现了这个目标。如果你打算学Python,廖雪峰的教程值得推荐。楼上有地址了。
    happywowwow
        21
    happywowwow  
       2014-12-31 12:55:42 +08:00
    有驱动就快
    比如爬个感兴趣的网站的数据?
    比如 爬1024什么的
    Exin
        22
    Exin  
       2014-12-31 14:53:55 +08:00
    关注下,目前会前端基础和c++,python没学过
    ming2050
        23
    ming2050  
       2014-12-31 14:56:47 +08:00 via Android
    如果简简单单的,一天就差不多了,就是个深度搜索。如果是复杂的,可以参考一些开源的搜索框架,那可不是一年半载能完成的。
    Colorful
        24
    Colorful  
       2014-12-31 15:51:29 +08:00
    @mringg 没那么容易吧?
    realityone
        25
    realityone  
       2014-12-31 15:54:33 +08:00
    ..简单的爬虫抄着别人的demo就出来了。。
    imn1
        26
    imn1  
       2014-12-31 16:07:54 +08:00
    写好爬虫不仅是python
    至少还要有http前端基础知道DOM可用bs或lxml+xpath,大量建议正则
    要懂http协议破各种防盗链和cookies
    可能还需要知道socket至少知道errno的意思,不然搞不清程序没错却抓不到的原因
    更高级的还要知道怎么用野鸡(大量肉鸡),以及任务分割,不然被封只是迟早的事

    如果说只是能用,找现成的改改很简单
    xidianlz
        27
    xidianlz  
       2014-12-31 16:11:52 +08:00
    居然没人推荐神器scrapy
    nj
        28
    nj  
    OP
       2014-12-31 16:38:15 +08:00
    非常感谢各位建议。
    我的目的不是写一个爬虫,是想弄懂,明白一些,还想学习 Python 。
    之前看过 笨方法学 Python ,也有过编程基础。
    lincanbin
        29
    lincanbin  
       2014-12-31 16:41:27 +08:00
    用requests,花了一天吧,前面半天看了下Python语法,然后就是读requests和re的文档了。
    除了语法与类的结构外,和其他语言写爬虫没有任何区别。
    ryd994
        30
    ryd994  
       2014-12-31 17:02:34 +0800 via Android
    说实话我觉得Python用来学习并不合适。对有编程经验的人来说却非常顺手。

    爬虫的话不建议直接urllib3,因为管理cookie之类的其实还是麻烦。requests会比较方便,毕竟你只关注数据,底层的一般用不上。

    解析可以beautifulsoup,个人没用过,但是之前别人说到,看了一下感觉对新手很友好。数据少的话直接正则

    socket的话不怕,现查谷歌就可以了

    至于肉鸡……Python就算了吧
    icedx
        31
    icedx  
       2014-12-31 17:06:32 +08:00 via Android
    一天Urllib2+BeautifulSoup4
    zhurenhu
        32
    zhurenhu  
       2014-12-31 17:09:18 +08:00   1
    urllib2 + beatifulsoup 一两天搞定一个简单的爬虫

    see:
    https://gist.github.com/0d6c55baa33a8b194fbb.git
    thanksir
        33
    thanksir  
       2014-12-31 17:40:09 +08:00
    一天足够,话说刚开始学python的时候也是想玩爬虫
    sosozzzx
        34
    sosozzzx  
       2016-05-10 20:11:30 +08:00
    推荐使用神箭手云爬虫( http://www.shenjianshou.cn ),完全在云上编写和执行爬虫,不需要配置任何开发环境,快速开发快速实现。
    简单几行 Javascript 就可以实现复杂的爬虫,同时提供很多功能函数:反反爬虫、 js 渲染、数据发布、图表分析、反防盗链等,常见的编写爬虫过程中会遇到的问题都由神箭手帮你解决。
    demo 源码地址: https://github.com/ShenJianShou/crawler_samples
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5341 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 34ms UTC 01:16 PVG 09:16 LAX 18:16 JFK 21:16
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86