新手学 Python 爬虫 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
buaishi
V2EX    Python

新手学 Python 爬虫

  •  
  •   buaishi 2019-09-18 23:26:42 +08:00 via Android 5074 次点击
    这是一个创建于 2216 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我是一名大学 Python 小白,我一次偶然的机会接触到了 Python 爬虫,感觉很是喜欢,所以我现在真心想了解和学习这方面技能,不知道前辈有什么推荐书籍或者其他学习方式吗?

    25 条回复    2019-09-23 00:49:19 +08:00
    linvaux
        1
    linvaux  
       2019-09-19 00:15:53 +08:00 via Android
    先把 requests 库看明白
    buaishi
        2
    buaishi  
    OP
       2019-09-19 00:23:19 +08:00 via Android
    @linvaux 好嘞 明白
    MrZhaoyx
        3
    MrZhaoyx  
       2019-09-19 09:00:19 +08:00
    最近在看《 Python 网络数据采集》,写的挺不错的
    Leigg
        4
    Leigg  
       2019-09-19 09:14:57 +08:00 via Android
    requests,beautifulsoup,scrapy,lxml,re,这几个是爬虫必知必会的库,先用熟,再看源码掌握其原理就是中高级了。
    aaronhua
        5
    aaronhua  
       2019-09-19 09:37:33 +08:00
    哔哩哔哩上一搜一大把的视频教程。个人觉得,新手不建议看书。视频更容易入手些。
    buaishi
        6
    buaishi  
    OP
       2019-09-19 10:17:14 +08:00 via Android
    @MrZhaoyx 好的 我去了解了解
    buaishi
        7
    buaishi  
    OP
       2019-09-19 10:17:36 +08:00 via Android
    @Leigg 谢谢哈
    locoz
        8
    locoz  
       2019-09-19 10:18:25 +08:00
    先定义一下爬虫的两种方向:
    垂直爬虫指只爬特定的某些网站,且对所需数据都进行标准化、格式化的爬虫
    通用爬虫指做搜索引擎、新闻聚合等用的那些爬虫,什么网站都爬,但只需要提取一些浅层的数据

    然后你可以先看看崔庆才的书,现在他那个书的第一版已经免费了,在博客上就能直接看,虽然不算很深,但广度基本足够了,入门的时候用来了解一下还是可以的。
    然后看方向决定是深入哪方面,如果想往垂直爬虫方向发展就深入逆向,如果想往通用爬虫方向发展就深入算法、机器学习。
    buaishi
        9
    buaishi  
    OP
       2019-09-19 10:18:42 +08:00 via Android
    @aaronhua 进军 b 站 哈哈
    buaishi
        10
    buaishi  
    OP
       2019-09-19 10:20:07 +08:00 via Android
    @locoz 知道了 会去了解的 谢谢哈
    locoz
        11
    locoz  
       2019-09-19 10:22:07 +08:00
    偷偷打个广告,我之前发的文章也可以看看。我现在和几个号主一起组建了 NightTeam 团队(微信公众号沿用了之前的 [小周码字] ),未来发布的文章也可以看看,都是高质量文章,跟那些一天到晚标题搞噱头、内容纯水的号不一样。
    buaishi
        12
    buaishi  
    OP
       2019-09-19 10:26:48 +08:00 via Android
    @locoz 好的 OK 我也弄了个公众号 孟夏启明 但不知道干什么用
    JWilling
        13
    JWilling  
       2019-09-19 11:17:11 +08:00 via iPhone
    @buaishi 也可以试试原生库,再使用 requests 和 requests-html
    zdnyp
        14
    zdnyp  
       2019-09-19 11:26:00 +08:00
    @Leigg 这个里中高级还有点远吧...还有 JS 和逆向呢
    zdnyp
        15
    zdnyp  
       2019-09-19 11:26:45 +08:00
    @locoz +1
    hackxing
        16
    hackxing  
       2019-09-19 13:34:24 +08:00
    自己学 Python 爬虫的笔记: https://meowv.com/category/python/
    wangkai0351
        17
    wangkai0351  
       2019-09-19 13:38:44 +08:00
    @hackxing 大多是照本宣科,看不出有自己的理解见解,库源码分析都没有,就不要拿出来了吧
    wolfan
        18
    wolfan  
       2019-09-19 13:41:02 +08:00 via Android
    @aaronhua 看书加视频,理论加实践更好。
    SjwNo1
        19
    SjwNo1  
       2019-09-19 13:48:03 +08:00
    反爬 反反爬 反反反爬 。。。。
    DOUWH
        20
    DOUWH  
       2019-09-19 17:31:58 +08:00
    真心劝你别学爬虫~
    337136897
        21
    337136897  
       2019-09-19 21:06:42 +08:00
    你悠着点,已经不少学爬虫 的进了看守所了
    cherbim
        22
    cherbim  
       2019-09-20 05:47:30 +08:00
    实战效率最高,找视频跟着爬
    ps:对了,讲个笑话,搞爬虫的最后归宿永远是看守所
    buaishi
        23
    buaishi  
    OP
       2019-09-20 14:15:14 +08:00 via Android
    @DOUWH 我觉得很酷很感兴趣 爬虫是炒起来的吗?
    DOUWH
        24
    DOUWH  
       2019-09-20 15:10:53 +08:00
    @buaishi 单纯的爬虫技术栈太单一, 复杂的爬虫技术栈太乱,我看过一篇文章讲的好,文章中提到,现在的爬虫是公司想让你爬什么你就能爬什么,当你的爬虫成本远大于你的爬虫收益,企业就会放任你去爬。现在网络安全法律日益健全,爬虫的道路越来越窄,整合表层数据,获取的都是普通数据,凡是深入一点的数据都是商业犯罪。自己玩玩还可以,不利于职业发展
    buaishi
        25
    buaishi  
    OP
       2019-09-23 00:49:19 +08:00 via Android
    @DOUWH 明白了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5543 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 08:27 PVG 16:27 LAX 01:27 JFK 04:27
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86