分享一个用 Python 获取 V2 首页文章的爬虫 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
PythoneerDev6
V2EX    程序员

分享一个用 Python 获取 V2 首页文章的爬虫

  •  
  •   PythoneerDev6
    xiyouMc 2017-07-12 22:20:10 +08:00 4511 次点击
    这是一个创建于 3014 天前的主题,其中的信息可能已经有所发展或是发生改变。

    多的不说了。 直接上链接:

    点击 V2EX 爬虫

    第 1 条附言    2017-07-13 09:47:03 +08:00

    强调下: 这是入门级别的爬虫。 吐槽 说 low 的。趁早 cmd + w,不送。

    第 2 条附言    2017-07-13 09:50:32 +08:00

    还有,这是 v2 提供的 API.

    api/topics/latest.json

    可以访问看看,是不是首页的文章。

    32 条回复    2017-07-14 22:12:07 +08:00
    lzhr
        1
    lzhr  
       2017-07-12 23:06:22 +08:00
    通过 Atom Feed 订阅
    ranleng
        2
    ranleng  
       2017-07-12 23:15:52 +08:00 via Android
    内个。。v2 有给 api
    cxbig
        3
    cxbig  
       2017-07-12 23:20:37 +08:00
    同上,为啥不用官方 Feed。。。
    xray887
        4
    xray887  
       2017-07-12 23:23:27 +08:00 via iPad
    说实话,感觉很 low
    aaronzjw
        5
    aaronzjw  
       2017-07-12 23:53:00 +08:00   1
    楼主辛苦造的轮子,不懂楼上的都这么刻薄。 鼓励鼓励吧,人生不易
    16888
        6
    16888  
       2017-07-13 00:23:15 +08:00 via Android
    这个确实有点搞(= ̄ρ ̄=)..zzZZ 好像是人家大门一直开着,你偏要翻墙进人家屋里去 haha
    gesse
        7
    gesse  
       2017-07-13 09:36:43 +08:00   1
    这个应该是技术练习吧,吐槽可以用 feed 的是什么鬼?

    为什么不好好评价下代码
    PythoneerDev6
        8
    PythoneerDev6  
    OP
       2017-07-13 09:43:36 +08:00
    @ranleng v2 的 API 不是实时的 难道你不知道?
    PythoneerDev6
        9
    PythoneerDev6  
    OP
       2017-07-13 09:45:03 +08:00
    @xray887 那你说说什么算不 low?
    PythoneerDev6
        10
    PythoneerDev6  
    OP
       2017-07-13 09:45:43 +08:00
    @16888 你用过 他的 API 吗 没发现不是 实时的吗?
    16888
        11
    16888  
       2017-07-13 10:45:13 +08:00
    @PythoneerDev6 是的,站长做了缓存。不光是 api,这个 web 首页也不是实时的啊,要缓存过期了,才会更新,你发个贴试试就知道了。
    PythoneerDev6
        12
    PythoneerDev6  
    OP
       2017-07-13 11:02:24 +08:00
    @16888 嗯 是的 发新帖排的很后,其次貌似回复也不是很及时的靠前。 貌似问题还是有的。
    PythoneerDev6
        13
    PythoneerDev6  
    OP
       2017-07-13 11:20:26 +08:00
    @aaronzjw 还是老铁 懂。
    aaronzjw
        14
    aaronzjw  
       2017-07-13 11:36:06 +08:00 via Android   1
    @PythoneerDev6 超哥我是你粉丝啊,说你 low 的肯定没看过你代码
    bao3
        15
    bao3  
       2017-07-13 12:30:30 +08:00   1
    楼上那些嘲讽楼主的人,我想表达的是,看了楼主的文章,起码我知道怎么弄这个基本的爬虫了。楼主应该是以 V2EX 为引子而已。
    Jakesoft
        16
    Jakesoft  
       2017-07-13 12:36:31 +08:00 via iPhone
    我写过的爬虫:输入 v2 的首页的 URL 得到所有的帖子,以及帖子的各个属性,不知楼主是否需要参考?
    gulangyu
        17
    gulangyu  
       2017-07-13 12:37:02 +08:00   1
    滋瓷分享!
    ivechan
        18
    ivechan  
       2017-07-13 12:48:00 +08:00   1
    虽然讲的比较简单, 但是胜在逻辑比较清晰, 另外排版还是不错的。
    看了一些其他人发的公众号文章,排版不忍直视。。
    ywgx
        19
    ywgx  
       2017-07-13 13:02:17 +08:00   1
    支持楼主
    lommo
        20
    lommo  
       2017-07-13 13:41:01 +08:00   1
    歧视 windows
    PythoneerDev6
        21
    PythoneerDev6  
    OP
       2017-07-13 14:03:42 +08:00
    @aaronzjw 扎心的 哇哇大哭
    PythoneerDev6
        22
    PythoneerDev6  
    OP
       2017-07-13 14:05:23 +08:00
    @Jakesoft v2 的首页 不就是 https://v2ex.com 嘛? 不过 不防分享出来 我看看。其实这个贴子只是安利下 Scrapy 的基础知识。V2 只是个引子。我也没有深入爬取 V2
    PythoneerDev6
        23
    PythoneerDev6  
    OP
       2017-07-13 14:06:13 +08:00   1
    @ivechan 每次写完文章 自己得看上 不下十次 改排版 改字词不当的地方。 才发出来。
    PythoneerDev6
        24
    PythoneerDev6  
    OP
       2017-07-13 14:06:39 +08:00
    @bao3 感动的我 哇哇大哭。
    PythoneerDev6
        25
    PythoneerDev6  
    OP
       2017-07-13 14:07:30 +08:00
    @lommo 南无观世音菩萨
    AnyISalIn
        26
    AnyISalIn  
       2017-07-13 15:07:20 +08:00
    写过一个 v2ex_console 的项目,通过命令行上 V2EX 登录、浏览、回复,不过烂尾了
    PythoneerDev6
        27
    PythoneerDev6  
    OP
       2017-07-13 15:47:40 +08:00
    @AnyISalIn 嗯嗯 不错的 棒棒的 。不过 这个文章中 v2 不是重点,Scrapy 才是重点。
    pcdRob
        28
    pcdRob  
       2017-07-13 16:45:19 +08:00
    我写φ( ̄ ̄ )ノ了个更 low 的 爬 b 站用户的
    PythoneerDev6
        29
    PythoneerDev6  
    OP
       2017-07-13 17:29:20 +08:00
    @pcdRob 幸亏你爬的不是电视剧。
    mcds
        30
    mcds  
       2017-07-14 12:05:08 +08:00
    本来想吐槽一下楼主的头像,不过我玻璃心,怕被喷,还是算了...
    PythoneerDev6
        31
    PythoneerDev6  
    OP
       2017-07-14 13:00:54 +08:00
    @mcds V2 里面哪有头像可言。
    ywgx
        32
    ywgx  
       2017-07-14 22:12:07 +08:00
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     870 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 22:15 PVG 06:15 LAX 15:15 JFK 18:15
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86