万能的 V2er,有没有大牛爬取了过网易云的所有评论.. - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Va1n3R
V2EX    Python

万能的 V2er,有没有大牛爬取了过网易云的所有评论..

  •  
  •   Va1n3R 2017-12-28 23:59:06 +08:00 6303 次点击
    这是一个创建于 2844 天前的主题,其中的信息可能已经有所发展或是发生改变。

    楼主用的是 python,自己写太蛋疼了,数据量太大了,还需要购置 IP 写代理池,穷学生没有资金。想问问有没有什么简约点的方法可以爬取或者有现成的数据。
    看到了 https://github.com/Binaryify/NeteaseCloudMusicApi 这个项目,想使用这个大兄弟的接口,但是怕调用量太大了,被网易端掉,不想害人...
    之前没有想过做这么大的爬虫,主要目的想做成数据库,让用户可以查询自己名字有没有被告白过~~可能很无聊~~

    等实现了,想用这些做很酷的事情...

    30 条回复    2017-12-29 18:55:04 +08:00
    Va1n3R
        1
    Va1n3R  
    OP
       2017-12-28 23:59:57 +08:00
    V2 对 markdown 的支持好迷啊...
    lhx2008
        2
    lhx2008  
       2017-12-29 00:05:21 +08:00 via Android
    没爬过,如果封 ip 的话,去买那种可以快速失效的 ip,大概一个 1 毛这样子,不过这个数据量太大了,就算开多进程 0.1s 一个一天也爬不了多少。
    Va1n3R
        3
    Va1n3R  
    OP
       2017-12-29 00:07:27 +08:00
    @lhx2008 是的,量实在太大了。
    yu099
        4
    yu099  
       2017-12-29 00:09:24 +08:00 via Android
    搜索引擎索引不到吗?得自己抓?
    scriptB0y
        5
    scriptB0y  
       2017-12-29 00:12:14 +08:00
    @yu099 不太好搜,网易对搜索引擎没做很好

    Va1n3R
        6
    Va1n3R  
    OP
       2017-12-29 00:15:28 +08:00
    想到了一个方法
    爬取数据,然后如果有包括人名的评论,就把这条评论的定位信息(歌曲,多少条)记录下来,数据应该会小几个几何倍
    现在机器学习这么火热的情况下,不知道有没有大牛训练了识别人名的模型,集成好了库..
    爬虫我也想尝试一下写一个分布式爬虫出来,但就是怕封 IP...
    haozibi
        7
    haozibi  
       2017-12-29 00:22:17 +08:00 via Android
    网易云都是段子,有什么好看的
    oonnnoo
        8
    oonnnoo  
       2017-12-29 01:13:22 +08:00 via Android   2
    上次有个兄弟爬,收到过律师函哟
    Va1n3R
        9
    Va1n3R  
    OP
       2017-12-29 01:22:09 +08:00
    @haozibi 查看有没有在评论中提到过你....
    Va1n3R
        10
    Va1n3R  
    OP
       2017-12-29 01:22:42 +08:00
    @oonnnoo 爬虫并不犯法...那个新闻好久之前了吧,搞得好多人觉得爬虫是违法的...
    AlwaysBehave
        11
    AlwaysBehave &bsp;
       2017-12-29 02:44:41 +08:00
    @Va1n3R 准备好 1kw 了吗
    https://music.163.com/html/web2/service.html
    不过网易应该要不起 1kw
    tadtung
        12
    tadtung  
       2017-12-29 07:56:57 +08:00 via Android
    @Va1n3R 爬虫本身不违法,但是使用爬去的数据就有法律风险了。
    当年大众点评赢过评论爬取官司,baidu 也告赢过 360。

    目前来说网易云的评论,著作权和使用权属于网易,如果你爬去后用作商业,网易轻松告你的。
    qu3290052
        13
    qu3290052  
       2017-12-29 08:13:02 +08:00 via Android
    @tadtung 那就是数据二次利用的问题,跟爬虫无关,爬虫不背锅
    uolcano
        14
    uolcano  
       2017-12-29 08:16:09 +08:00 via Android
    @Va1n3R 前几天逛微博时看到个人名分词库。看看这条微博? http://overseas.weico.cc/share/12850316.html
    YanSep
        15
    YanSep  
       2017-12-29 08:49:19 +08:00 via Android
    我尝试过,只是爬了很少很少的一部分,至于你说的 ip 我用的是免费的那种高匿 ip。
    tadtung
        16
    tadtung  
       2017-12-29 08:54:47 +08:00 via Android
    @qu3290052 我不是第一句就说了爬虫不违法。。。。你这没看清
    MrXiong
        17
    MrXiong  
       2017-12-29 08:57:17 +08:00
    我试过,爬了 1kw 左右,就爬不动了,ip 消耗太大,10 个线程爬的,慢点的话估计消耗慢些,但是很浪费时间
    shmon
        18
    shmon  
       2017-12-29 08:58:49 +08:00
    我有,1.6 亿条,17.5G
    shmon
        19
    shmon  
       2017-12-29 09:09:03 +08:00
    看错了。。。是另一个平台的。。。。。忽略忽略
    holajamc
        20
    holajamc  
       2017-12-29 09:48:48 +08:00   2
    hluo7054
        21
    hluo7054  
       2017-12-29 09:59:30 +08:00
    爬过。不过那是两年前的了,也是直接访问 API,不用全部链接都爬。可以省很多事情,还有 ip 复用也很重要,当时还是慢慢爬的基本没事,所以不想花钱那找免费的代理然后慢点来,
    omghonor
        22
    omghonor  
       2017-12-29 11:31:26 +08:00   1
    我只爬了曲库,歌手库以及热评(没有爬全部的,就是上面的热门评价,包括点赞数等),还没触发网易云的底线~~
    https://github.com/Charley-Hsu/spider_music
    F1024
        23
    F1024  
       2017-12-29 16:50:08 +08:00
    PythoneerDev6
        24
    PythoneerDev6  
       2017-12-29 16:56:07 +08:00
    给你个传送门 :github.com/xiyouMc/ncmbot
    /table>
    Va1n3R
        25
    Va1n3R  
    OP
       2017-12-29 17:44:02 +08:00
    @F1024 爬虫我会写啊...这个简单的很。热评都没有经过加密
    vtwoextb
        26
    vtwoextb  
       2017-12-29 17:52:25 +08:00
    更换 IP 策略
    vtwoextb
        27
    vtwoextb  
       2017-12-29 17:54:27 +08:00
    用这个就行 github.com/hizdm/dynamic_ip 采用重启或重新拨号路由器就可以
    Va1n3R
        28
    Va1n3R  
    OP
       2017-12-29 18:30:03 +08:00
    @vtwoextb 我校园网,正好是 DHCP,可行!
    Va1n3R
        29
    Va1n3R  
    OP
       2017-12-29 18:30:32 +08:00
    @luohaihao 感觉就是构建代理池太麻烦了
    vtwoextb
        30
    vtwoextb  
       2017-12-29 18:55:04 +08:00
    @Va1n3R 你看看 重启一下 宿舍的路由器 ip 变不变 要是变就行 要是不变 那就只能用代理了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2406 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 39ms UTC 15:44 PVG 23:44 LAX 08:44 JFK 11:44
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86