最近正在学习 Go,想写一个爬虫来练练手,希望大家出个好点子 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
www6688w
V2EX    程序员

最近正在学习 Go,想写一个爬虫来练练手,希望大家出个好点子

  •  
  •   www6688w 2019-08-27 18:01:03 +08:00 6610 次点击
    这是一个创建于 2289 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近正在学习 Go,想写一个爬虫来练练手。

    但是不知道该爬些什么,大家有没有什么建议的目标站点或者好玩的点子,都可以提出来。

    这个主要是练习和玩,写完之后代码会直接开源。

    37 条回复    2019-08-29 09:43:12 +08:00
    meik2333
        1
    meik2333  
       2019-08-27 18:09:32 +08:00   1
    upczww
        2
    upczww  
       2019-08-27 18:12:53 +08:00 via Android
    爬携程,美团,淘宝,这些都非常好爬
    ylsc633
        3
    ylsc633  
       2019-08-27 18:15:27 +08:00
    我曾入行时学习 php 的时候 用 php 的 cUrl 趴了 达盖尔 板块的图!
    Ritter
        4
    Ritter  
       2019-08-27 18:17:43 +08:00
    @upczww 好爬+1
    siriussilen
        5
    siriussilen  
       2019-08-27 18:18:31 +08:00
    @Ritter 好爬+2
    TomStark
        6
    TomStark  
       2019-08-27 18:20:02 +08:00
    @ylsc633 开,往城市边缘开
    www6688w
        7
    www6688w  
    OP
       2019-08-27 18:36:06 +08:00
    @upczww 淘宝防爬不是很厉害麽,大兄弟 (⊙⊙)
    cxsz
        8
    cxsz  
       2019-08-27 18:38:34 +08:00
    豆瓣 爬电影信息,评分,观影人数啥的
    Rorshach
        9
    Rorshach  
       2019-08-27 18:39:12 +08:00
    @www6688w 没有吧,我半年前爬的时候只要带上 cookies+代理就可以了
    roryzh
        10
    roryzh  
       2019-08-27 19:36:30 +08:00   1
    jav
    default7
        11
    default7  
       2019-08-27 22:43:04 +08:00
    为什么不是 py
    skiy
        12
    skiy  
       2019-08-27 23:19:22 +08:00 via Android
    fivestrong
        13
    fivestrong  
       2019-08-27 23:38:38 +08:00 via iPhone
    爬 dmm 吧,整个电影库。
    XxxxD
        14
    XxxxD  
       2019-08-27 23:49:39 +08:00
    从自己兴趣出发啊
    misaka19000
        15
    misaka19000  
       2019-08-27 23:56:07 +08:00
    写啥爬虫啊,没什么技术含量
    rayhy
        16
    rayhy  
       2019-08-28 00:00:49 +08:00 via Android
    写个 golang 版本的 rsshub 吧,能考验下自己怎么组织代码,怎么设计 API,怎么方便别人帮你写某个网站的爬虫。
    herozzm
        17
    herozzm  
       2019-08-28 00:17:24 +08:00
    @siriussilen 好爬+3
    mumbler
        18
    mumbler  
       2019-08-28 00:35:47 +08:00
    爬 youtube 所有带中文字幕的视频
    MMMMMMMMMMMMMMMM
        19
    MMMMMMMMMMMMMMMM  
       2019-08-28 08:10:20 +08:00
    某 hub 视频
    omph
        20
    omph  
       2019-08-28 08:44:57 +08:00
    微信、微博、豆瓣等资源大户
    ctro15547
        21
    ctro15547  
       2019-08-28 08:49:35 +08:00
    国内外各种大秀直播平台的流媒体地址抓取,做个整合,做成 api,外接个播放工具,或者动手写写安卓,就取名叫 XX 聚合直播吧,放墙外收费,到手的钱,写个监控各挖矿币种走势的爬虫,自动买币,一条龙
    snoopygao
        22
    snoopygao  
       2019-08-28 08:56:05 +08:00
    @herozzm 好爬+4
    sadfQED2
        23
    sadfQED2  
       2019-08-28 09:13:02 +08:00 via Android
    https://github.com/Jinnrry/getAwayBSG 上次看见的,跟进一下?
    sadfQED2
        24
    sadfQED2  
       2019-08-28 09:13:29 +08:00 via Android
    @snoopygao 好爬+5
    qq7790586
        25
    qq7790586  
       2019-08-28 10:19:57 +08:00
    顺便借楼问下,爬虫是 python 还是 go 好呢?
    ClericPy
        26
    ClericPy  
       2019-08-28 11:37:52 +08:00
    golang 实现其他语言的著名 爬虫框架, 主要是模仿 API 或者架构
    或者最简单的模仿其他语言的好用的 http 请求库, 主要了解下设计和命名方式
    或者实现 curlparse, 也就是 curl string 和 struct 互转

    边看边学, 最简单的还是直接照抄 Github 已有项目, 很多时候自己摸索的进度完全不如直接看好代码, 刚入门多学学别人的设计和风格比自己瞎写有用得多
    mozutaba
        27
    mozutaba  
       2019-08-28 11:43:41 +08:00
    @upczww 还有公众号也非常适合入门
    tushile928
        28
    tushile928  
       2019-08-28 13:32:12 +08:00
    爬可用 6 位数以内域名
    andy1ee11o2
        29
    andy1ee11o2  
       2019-08-28 13:37:43 +08:00
    Fanza
    amwyyyy
        30
    amwyyyy  
       2019-08-28 13:49:37 +08:00
    我之前刚玩的时候把某 h 网站的图片全下了
    encro
        31
    encro  
       2019-08-28 13:57:47 +08:00
    网易考拉 趁倒闭前收集 SKU 分析分析
    laravel
        32
    laravel  
       2019-08-28 13:58:16 +08:00
    p 站(p**nh*b)视频中文留言
    None123
        33
    None123  
       2019-08-28 14:02:35 +08:00
    @Rorshach 不会有假数据吗?
    www6688w
        34
    www6688w  
    OP
       2019-08-28 14:48:07 +08:00
    @qq7790586 看个人习惯吧,,我比较喜欢 Go 这种类型的,不过 py 可能会简单一些
    qiuBiLiBiLima
        35
    qiuBiLiBiLima  
       2019-08-28 17:00:07 +08:00
    大神,求抖音视频批量去水印下载,GitHub 上之前有个大神做过,1000 多个 star,但是现在好像不维护了,求大神接力做下去
    qiuBiLiBiLima
        36
    qiuBiLiBiLima  
       2019-08-28 17:02:27 +08:00
    大神,求抖音视频批量去水印下载,GitHub 上之前有个大神做过,1000 多个 star,但是现在好像不维护了,求大神接力做下去 这个是地址 https://github.com/loadchange/amemv-crawler
    roryzh
        37
    roryzh  
       2019-08-29 09:43:12 +08:00
    @amwyyyy 我给某 x 网全视频都下了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5228 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 01:25 PVG 09:25 LAX 17:25 JFK 20:25
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86