萌新边学边写、基于 Python3 的 Yande.re 图片爬虫 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
mokeyjay
V2EX    Python

萌新边学边写、基于 Python3 的 Yande.re 图片爬虫

  •  
  •   mokeyjay
    mokeyjay 2017-03-07 22:56:58 +08:00 3216 次点击
    这是一个创建于 3144 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Yande.re 图片爬虫

    前言

    每天打开电脑第一件事,就是打开Y 站,看看又更新了哪些图片、其中又有哪些适合作为壁纸

    日久天长,总会感觉浪费时间精力,每天都要在一堆图片里找 PC 壁纸

    这可不符合我作为一个码农的身份

    正好最近想学学Python3,于是一边看着廖学峰的 Python 教程一边撸出来这个项目。写得很差,轻喷

    本项目基于Win7Python3.5.2开发,其他环境下未测试

    功能

    • 支持从指定的开始页码爬取到结束页码
    • 也支持从第一页爬取到上一次开始爬取的位置
    • 支持设置爬取的图片类型(全部、横图、竖图、正方形)
    • 支持最大或最小图片尺寸宽高比限制
    • 按照当天的日期创建目录并存放爬取的图片
    • 爬取结束后会在图片目录下生成日志文件

    如何使用

    必须 编辑Function.py5行,将该变量的值设为自己想要的目录,程序将会自动创建,路径必须以斜杠结尾

    • 方案一:如果想要从开始页码爬到结束页码,请修改index.py12行和第15行的两个变量;
    • 方案二:如果想要从开始页码爬取到上一次开始爬取的位置,请修改index.py15行的值为0。还有last_start_id.data的内容,改为某张图片的 id 即可。爬到此图片时程序将停止。该方案下推荐将开始页码设为1,相当于每次执行都只从新增的图片中爬取

    例如某图片的详情页 Url 为:https://yande.re/post/show/346737,则图片 id 为346737

    然后命令行执行python index.py即可( Windows 下)。 Linux 下可直接执行

    注意事项

    值得一提的是,无论使用哪种方案运行,last_start_id.data的内容都会被自动修改为爬取到的第一张图片的 id

    这样做的目的是为了实现方案二,相当于每次执行都只从新增的图片中爬取。比较适合设置为自动运行之类的

    项目地址

    https://github.com/mokeyjay/Yandere-crawler

    4 条回复    2017-03-08 14:14:21 +08:00
    menduo
        1
    menduo  
       2017-03-07 23:24:21 +08:00 via iPhone
    酷!
    /div>
    fengxiang
        2
    fengxiang  
       2017-03-07 23:28:12 +08:00
    mokeyjay
        3
    mokeyjay  
    OP
       2017-03-08 08:23:09 +08:00 via Android
    @fengxiang 我在写这个程序的时候也注意到了……并发会导致被禁止访问一阵子,所以最终成品是单线程的……跟我手动访问也差不多啦
    green68599
        4
    green68599  
       2017-03-08 14:14:21 +08:00
    66666666,大神给跪
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1291 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 30ms UTC 23:51 PVG 07:51 LAX 16:51 JFK 19:51
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86