[有偿] 征大型爬虫的技术指导 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
professorz
V2EX    Python

[有偿] 征大型爬虫的技术指导

  •  
  •   professorz 2015-02-26 21:59:32 +08:00 9766 次点击
    这是一个创建于 3931 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我第一次接手一个比较大型的爬虫任务,要爬取一个千万级别的网站,所以要用到scrapy+redis多线程,分布式抓取,服务器配置等等,想找一个有这种经验的人讨教。我明白时间宝贵,所以愿意出钱作为学费,而且只需您辅助我的工作过程,给予一些指导。
    45 条回复    2015-03-01 13:57:44 +08:00
    mhycy
        1
    mhycy  
       2015-02-26 22:00:25 +08:00
    爬的是哪个站?有多少资源可用?
    iannil
        2
    iannil  
       2015-02-26 22:53:20 +08:00
    可以参考我这个回复 http://v2ex.com/t/127220#reply5
    laotaitai
        3
    laotaitai  
       2015-02-27 01:57:31 +08:00
    直接外包给我吧. 不过哈, 一般情况下, 少于5W的项目我不接. 哥是专业的玩爬虫的. 我写过爬取全世界60%左右连了网的电脑, 一共收集了3亿的资源的. 对, 你没看错, 就是爬你们的电脑, 不是爬网站.
    xiaobo
        4
    xiaobo  
       2015-02-27 02:18:37 +08:00 via iPhone
    @laotaitai 请问如何做到的 个人电脑资料 难道是通过木马收集的 那全球60%的电脑 得多少,不科学啊
    njutree
        5
    njutree  
       2015-02-27 06:52:24 +08:00 via iPhone
    @laotaitai 那么问题来了,全世界有多少电脑?
    fising
        6
    fising  
       2015-02-27 08:00:18 +08:00
    3楼吹牛逼不打草稿
    mrhuiyu
        7
    mrhuiyu  
       2015-02-27 08:28:00 +08:00
    @laotaitai 话说爬电脑?首先不礼貌的冒问一下今天不是愚人节?额好吧那请问假设电脑关机和非管理员用户登录电脑后无法访问指点盘符,那爬虫可以进去访问?
    jedyu
        8
    jedyu  
       2015-02-27 08:37:07 +08:00
    3楼是爬IP吧?
    mozutaba
        9
    mozutaba  
       2015-02-27 09:29:51 +08:00
    3楼是爬ip的开放服务?
    joshryo
        10
    joshryo  
       2015-02-27 09:33:13 +08:00
    3楼太谦虚了,居然还有40%连了网的电脑没爬。
    xidianlz
        11
    xidianlz  
       2015-02-27 09:43:57 +08:00
    3楼说的是扫描比较好吧 不算爬虫
    xFan
        12
    xFan  
       2015-02-27 09:51:37 +08:00
    3楼歪楼以后没人理楼主了...

    你们赶紧正回来,.
    angerskon
        13
    angerskon  
       2015-02-27 10:00:36 +08:00
    3楼说的3亿的资源是指的3亿台电脑吗?照你说的60%来算,也就是说全球5亿左右的计算机联网。ipv4的地址一共42亿左右,除掉一些保留的,怎么也不止5亿吧。
    thinkmore
        14
    thinkmore  
       2015-02-27 10:07:26 +08:00
    3楼就是来骗回复的
    crazycookie
        15
    crazycookie  
       2015-02-27 10:13:53 +08:00
    楼上都被 3楼带歪了
    其实有偿指导也是一件 比较 bug的事情
    这种分布式我在做,确实 scrapy + redis 可以完成这些
    我用linode跑的国外的站,4台服务器,还算稳定
    binux
        16
    binux  
       2015-02-27 10:34:02 +08:00 via Android
    千万级别不算大型啊。。。
    lucn
        17
    lucn  
       2015-02-27 10:56:32 +08:00
    scrapy开发成本高,pyspider半小时搞定
    gouwudang
        18
    gouwudang  
       2015-02-27 11:01:34 +08:00
    楼主可以来我司工作,每天得爬上亿条数据
    gouwudang
        19
    gouwudang  
       2015-02-27 11:01:45 +08:00
    @gouwudang 不用交钱,我们给你钱
    cxl008
        20
    cxl008  
       2015-02-27 11:05:58 +08:00
    scrapy+mongodb+redis 的方案 分布40台机器。。 爬取国内200多个安卓市场。。。。。。。。数据量到1亿左右。。没有3楼那么牛逼了。。。。
    jason52
        21
    jason52  
       2015-02-27 11:06:36 +08:00 via Android
    @gouwudang 哇,楼上在北邮人上发帖,最让我印象深刻的就是睡觉睡到自然醒。。。哈哈哈
    CodeDrift
        22
    CodeDrift  
       2015-02-27 11:14:54 +08:00
    突然感觉3L在360上班。。。
    gouwudang
        23
    gouwudang  
       2015-02-27 11:15:49 +08:00
    @jason52 谢谢关注,还在招人呢
    mengskysama
        24
    mengskysama  
       2015-02-27 11:29:54 +08:00
    之前我用了一台快到期的独服,24G内存,开了15台,特意申请了255个IP。
    爬的是last.XX,用了近二十多天爬了将近1忆的专辑信息(几亿歌曲信息。

    自己写的主从架构,只用了mysql,好像也没遇到什么瓶颈。
    个人感觉爬其实挺好爬的。如果源没有限制特别死或者太坑爹反爬虫策略的话
    nine
        25
    nine  
       2015-02-27 11:45:38 +08:00
    pyspider吧,很好用。。
    2dog
        26
    2dog  
       2015-02-27 11:47:40 +08:00
    @laotaitai 同学有兴趣挑战一下BAT的一家反抓取策略么?可外包,一天上亿条
    laotaitai
        27
    laotaitai  
       2015-02-27 12:43:15 +08:00
    @2dog 先简单给说说是个啥玩意呢. 爬什么? 拿来干什么?
    sohoer
        28
    sohoer  
       2015-02-27 12:52:56 +08:00
    @2dog 有挑战才好玩,详细说说
    2dog
        29
    2dog  
       2015-02-27 12:54:01 +08:00
    @laotaitai 抓淘宝的价格数据,我们用了20台服务器 + 1万代理IP 依然被封的半身不遂
    2dog
        30
    2dog  
       2015-02-27 12:54:11 +08:00
    @sohoer 抓淘宝的价格数据,我们用了20台服务器 + 1万代理IP 依然被封的半身不遂
    professorz
        31
    professorz  
    OP
       2015-02-27 13:25:20 +08:00
    我是lz,我回来了。

    @lucn pysipder稳定性,效率各方面怎么样呢?
    @binux 我在byr上问有人@你了
    @gouwudang 真的吗,我开学要做毕设,暑假去你们公司实习三个月吧?
    @2dog 我的毕设就是跟电商网站数据抓取有关的,我对你们的工作很感兴趣,让我打个杂学学习吧^_^
    laotaitai
        32
    laotaitai  
       2015-02-27 13:26:19 +08:00
    @2dog 有点意思, 价钱大概多少?
    2dog
        33
    2dog  
       2015-02-27 13:29:19 +08:00
    @laotaitai 邮件沟通吧 [email protected]
    inter
        34
    inter  
       2015-02-27 14:18:54 +08:00
    千万算个球大型。我们这一台服务器上的一个爬虫实例,一天就是上千万的请求。
    其实还能更高,但是现在提不上去的原因是一个实例就把对方一台服务器的下行吃满了。我们还得想着怎么帮对方提高吞吐量,对方cdn配置有问题的时候还得帮他们做同步.
    python真是弱啊,上亿的就几十台服务器了。我们这一台单核1g机器,跑两个实例。
    1亿请求,200多个站点,这就是台好点的服务器的事情
    Yannis1990
        35
    Yannis1990  
       2015-02-27 14:53:17 +08:00
    一直想知道 “千万级” 的网站是什么意思?

    千万个页面?
    cxl008
        36
    cxl008  
       2015-02-27 15:14:21 +08:00
    @2dog 求 哪里找这么多代理 ip 的?
    professorz
        37
    professorz  
    OP
       2015-02-27 15:23:56 +08:00
    @Yannis1990 嗯 千万个条目
    mengskysama
        38
    mengskysama  
       2015-02-27 15:44:25 +08:00   1
    @cxl008 www.66ip.cn/zz.html 估计都是扫出来的,无辜的网民
    mikangchan
        39
    mikangchan  
       2015-02-27 18:16:32 +08:00
    想求教下怎么精确控制内容...
    数据量不大,不过图片较多,而且要精确控制一部分文字内容
    sandideas
        40
    sandideas  
       2015-02-27 19:05:59 +08:00
    @cxl008 淘宝有卖。。便宜的狠
    lonelygo
        41
    lonelygo  
       2015-02-27 23:53:28 +08:00
    我是来看3楼歪楼的
    flyingkid
        42
    flyingkid  
       2015-02-28 09:16:30 +08:00
    3L如果是写DHT爬虫的话我还是相信的。
    professorz
        43
    professorz  
    OP
       2015-02-28 14:09:55 +08:00 via Android
    @inter 你们不是用的python?用的啥?
    laotaitai
        44
    laotaitai  
       2015-02-28 22:56:39 +08:00
    @flyingkid 哈哈, 总算遇到懂行的了, 就是DHT爬虫. 这下子我没吹牛逼吧.
    linkupmylife
        45
    linkupmylife  
       2015-03-01 13:57:44 +08:00
    我也玩过爬虫,爬完全是HTML,再用HTM转TXT之后放到EXCEL里筛选,非常麻烦。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5572 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 103ms UTC 01:36 PVG 09:36 LAX 17:36 JFK 20:36
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86