大家抓取 1 万个网页需要多少时间 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
xiayibu
V2EX    Python

大家抓取 1 万个网页需要多少时间

  •  
  •   xiayibu 2017-07-25 05:44:37 +08:00 5794 次点击
    这是一个创建于 3004 天前的主题,其中的信息可能已经有所发展或是发生改变。

    假设内容页文字和图片都有。

    24 条回复    2017-07-26 04:06:07 +08:00
    cxbig
        1
    cxbig  
       2017-07-25 05:50:28 +08:00
    这么开放的问题叫人怎么回答…
    哪个网站?什么工具?什么带宽?手上有多少 IP ?制约因素太多了…
    binux
        2
    binux  
       2017-07-25 06:29:02 +08:00
    就我呆过的公司
    10 分钟到 100 毫秒不等
    XiaoFaye
        3
    XiaoFaye  
       2017-07-25 06:36:46 +08:00
    @binux 100 毫秒瞬间抓完 1 万个?高潮都没那么快吧。。。
    xiayibu
        4
    xiayibu  
    OP
       2017-07-25 06:59:08 +08:00
    如果是拨号 VPS 这种,开进程会不会被封
    ericbize
        5
    ericbize  
       2017-07-25 07:52:49 +08:00 via iPhone
    上次 1 核 1g 的阿里云,单线程程序 爬了 10w 张几 k 的图 用了一晚上。 其实不用介意用了多久,只要程序没毛病,晚上一开白天醒来就差不多了。
    am241
        6
    am241  
       2017-07-25 08:07:53 +08:00 via Android
    爬福利,不想被封,也不想对目标站造成压力,爬了一晚上
    est
        7
    est  
       2017-07-25 08:39:20 +08:00
    写爬虫不加上 sleep(5) 也敢号称分布式爬虫?
    caijihui11
        8
    caijihui11  
       2017-07-25 08:58:55 +08:00
    怎么爬福利啊,透露下
    faceair
        9
    faceair  
       2017-07-25 09:06:27 +08:00
    @XiaoFaye #3 百度的蜘蛛这点速度都没有吗 hhhh
    xiayibu
        10
    xiayibu  
    OP
       2017-07-25 09:07:24 +08:00
    @ericbize 你这样爬 没有被封或是网页断开链接吗
    ericbize
        11
    ericbize  
       2017-07-25 09:09:29 +08:00
    @xiayibu 我会告诉你我爬的是 验证码?
    pcdRob
        12
    pcdRob  
       2017-07-25 09:12:22 +08:00
    几分钟
    calpamomo
        13
    calpamomo  
       2017-07-25 09:41:48 +08:00
    看网速
    jugelizi
        14
    jugelizi  
       2017-07-25 09:49:50 +08:00
    10s 抓完
    然后发现全是脏数据
    XiaoFaye
        15
    XiaoFaye  
       2017-07-25 09:54:13 +08:00
    @faceair 百度的蜘蛛的速度我不怀疑,问题是人家的 Web Server 慢你也没办法是吧?本机 Ping 也要 0.0X 毫秒一次,一个 web 请求怎么也不会比这个快吧? 100 毫秒 1 万个有点悬呀。
    regicide
        16
    regicide  
       2017-07-25 09:58:15 +08:00
    @XiaoFaye lz 又没说对一个 server
    ReisenZ
        17
    ReisenZ  
       2017-07-25 10:48:37 +08:00 via Android
    抓过漫画站…因为是自己看就慢慢抓了…几个小时吧…
    xiaomacai
        18
    xiaomacai  
       2017-07-25 10:54:17 +08:00
    1s+,是不是可以 DDoS 了
    xiayibu
        19
    xiayibu  
    OP
       2017-07-25 10:55:58 +08:00
    几秒的那是爬取网页吗,跟攻击网站没有区别啊
    linus3389
        20
    linus3389  
       2017-07-25 15:05:55 +08:00
    ssd,或者 redis,下行 10m/s
    不要眨眼哦
    4ever911
        21
    4ever911  
       2017-07-25 15:23:54 +08:00
    看大小吧, 我本机上写的程序, 抓股票数据,3000 多只股票,3 种时间数据, 算下来差不多 1w 个请求, 用 gevent,30 秒左右全部拿下来, 下载的数据打包有 200 多 mb, 我家 100MB 带宽。要是整个分布式的,那就更快了。
    binux
        22
    binux  
       2017-07-25 16:23:43 +08:00
    @XiaoFaye #15 这是一个开放性问题
    WoodenRobot
        23
    WoodenRobot  
       2017-07-25 17:17:37 +08:00
    @jugelizi 一开口就知道老江湖了。
    wolffn
        24
    wolffn  
       2017-07-26 04:06:07 +08:00 via Android
    @4ever911 可以请问下在哪个网站爬的股票数据吗
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     903 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 20:41 PVG 04:41 LAX 13:41 JFK 16:41
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86