[招募] 萌否业余项目网页爬虫,招募 node.js 开发者 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Ariagle
V2EX    Node.js

[招募] 萌否业余项目网页爬虫,招募 node.js 开发者

  •  
  •   Ariagle 2013-08-10 11:35:58 +08:00 10708 次点击
    这是一个创建于 4446 天前的主题,其中的信息可能已经有所发展或是发生改变。
    几个月前曾在 V2EX 发过类似的招募帖 http://www.v2ex.com/t/62611 ,里面有关于我们的介绍,这里就不再多写了。

    上次招到了一个可♂爱的开发者,不过还是不够。最近我稍微有了点点时间,希望能够尽快将萌否 Beta4 推上线,所以还要再找个同好帮忙推进后端的开发。

    现在要做的功能是:网页爬虫。更进一步,是指 ACG 媒体网站的爬虫。
    我们后台已经运行有一些爬虫了,这些爬虫也是针对具体网站来写的。现在,我们要针对媒体网站来抓取信息。后续还会扩大收录范围。
    由于各种原因,我们使用 node.js 来完成这类后端任务。因此我们希望你在 node.js 方面有一定的经验。
    同时,我也认为同是 ACGer 才能更好地融入我们团队。

    还是要注明的是,我们这个是业余项目。欢迎有兴趣、有余力、有时间的同好加入~

    联系方式:
    Email: ariagle [at] moefou.org
    QQ: 910437475
    Twitter: @Ariagle

    (·ω< )★
    43 条回复    2013-09-02 17:25:48 +08:00
    jasya
        1
    jasya  
       2013-08-10 11:42:37 +08:00
    _(:3」∠)_来写写练练手可以吗
    kenneth
        2
    kenneth  
       2013-08-10 11:46:52 +08:00
    @Ariagle 我可以提供全套的抓取解决方案,范例:www.mvmap.com
    chengyuhui
        3
    chengyuhui  
       2013-08-10 11:50:51 +08:00   1
    喵w
    davepkxxx
        4
    davepkxxx  
       2013-08-10 11:53:30 +08:00
    惊现圆长
    Ariagle
        5
    Ariagle  
    OP
       2013-08-10 11:54:41 +08:00
    @jasya 这是要上生产环境的,要是你觉得不太难,也可以当作是练手= =

    @kenneth 谢谢~不过现在还是想写套适用于我们自己实际情况的代码,你的方案是否属于通用型爬虫?
    kenneth
        6
    kenneth  
       2013-08-10 11:57:20 +08:00
    @Ariagle 没有我爬不了的网站,只需要告诉我,你要爬那些网站,那些结构化数据即可,我提供服务器直接入你数据库都可以。
    Ariagle
        7
    Ariagle  
    OP
       2013-08-10 12:01:09 +08:00
    @kenneth 厉害,听着像是商业服务的程度了 Σ( ° △ °|||)
    kenneth
        8
    kenneth  
       2013-08-10 12:06:59 +08:00
    @Ariagle 爬的同时,可以帮你把图片生成各种尺寸,按路径规则保存,等比例缩略+水印。爬虫全自动,无人值守,自动更新。mvmap就是全自动更新,不需要维护的。
    Ariagle
        9
    Ariagle  
    OP
       2013-08-10 12:13:29 +08:00
    @kenneth 是用什么写的呢?从长远来说,还是部署到自己服务器上比较好。
    kenneth
        10
    kenneth  
       2013-08-10 12:17:27 +08:00
    @Ariagle 爬虫Python开发效率高,运行效率也不错。可以帮你部署到你的服务器,配置定时任务,全自动抓取。
    jasya
        11
    jasya  
       2013-08-10 12:17:34 +08:00
    来了个高端人士...匿了..(ω`)
    kenneth
        12
    kenneth  
       2013-08-10 12:19:30 +08:00
    @Ariagle 如果你用亚马逊AWS,可以帮你配置爬虫集群,快速闪电抓取,以最短的时间,完成海量数据抓取。
    jasya
        13
    jasya  
       2013-08-10 12:30:31 +08:00
    @kenneth 突然有个问题,大哥能抓新浪微博全站吗,求解决方案
    Ariagle
        14
    Ariagle  
    OP
       2013-08-10 12:42:19 +08:00
    @kenneth 我们这边没什么人熟 python ,以后维护起来不方便……
    gullon
        15
    gullon  
       2013-08-10 13:38:40 +08:00
    @kenneth 用的是scrapy?
    我想请我一下,有什么适合爬虫待着的vps推荐呢?
    kenneth
        16
    kenneth  
       2013-08-10 13:55:51 +08:00   1
    @gullon 我会各种各样的爬虫,各种各样的语言的爬虫方案。Scrapy只是一个方案,mvmap用的不是这个方案。爬虫的难点在于,分布式,异步,并发,队列,数据管道,数据持久化等,考虑的点有很多。但是灵活的用。
    fetchcoin
        17
    fetchcoin  
       2013-08-10 14:02:32 +08:00
    不就一定向采集吗?为啥不用火车头,耗费人力物力自己写?
    kenneth
        18
    kenneth  
       2013-08-10 14:04:58 +08:00
    @fetchcoin 我要管理100万的域,5万的论坛,10万的博客,这么多规则,你用火车头,你觉得行吗?
    fetchcoin
        19
    fetchcoin  
       2013-08-10 14:06:59 +08:00
    @kenneth 你自己定向采集,结构化数据,不也需要对每个点配置规则吗,别说智能结构化数据
    gullon
        20
    gullon  
       2013-08-10 21:48:02 +08:00
    @kenneth 多谢指教。
    但分布式,异步,并发,队列,数据管道,数据持久化等基本上已经是搜索引擎蜘蛛的要求了吧?对普通的数据采集需要考虑这么多因素么?
    huazhouji
        21
    huazhouji  
       2013-08-10 22:04:40 +08:00 via iPhone
    @kenneth 高手啊,一个人管那么多站,牛逼
    lewisc402
        22
    lewisc402  
       2013-08-11 00:06:54 +08:00
    @kenneth 问个问题:假设我想用爬虫访问 a.html,结果服务器会重定向到 redirect.html?url=a.html,而redirect.html中是一些Javascript代码,用来写cookie,那么我该怎么办才能访问到原网页呢? 一般有哪几种方案可以解决这个问题??
    binux
        23
    binux  
       2013-08-11 11:40:13 +08:00
    @kenneth 分布式,异步,并发,队列,数据管道,数据持久化 都不是难点
    难点在于页面数据结构化,人工不算
    chengyuhui
        24
    chengyuhui  
       2013-08-12 00:21:15 +08:00
    @binux 一般的站点用jsdom甚至更简单的一些HTML Parser就能搞定
    最蛋疼的就是那些各种AJAX的Web App.....
    binux
        25
    binux  
       2013-08-12 00:56:50 +08:00
    @chengyuhui 我指的是,对不同的网站“自动”提取结构化数据
    clowwindy
        26
    clowwindy  
       2013-08-12 01:32:08 +08:00
    @kenneth 链接发现是怎么做的?
    isayr
        27
    isayr  
       2013-08-12 05:01:45 +08:00
    @clowwindy @kenneth 同问 链接发现是怎么做的?
    F0ur
        28
    F0ur  
       2013-08-12 11:54:03 +08:00
    搬凳子听讲课。。平时爬虫接触的真心不多
    emohacker
        29
    emohacker  
       2013-08-24 23:49:03 +08:00
    用node最简单的地方在于web上html内容抓回来之后可以把内容当dom操作,server端用jQuery操作dom获取指定内容,极大降低了门槛,不会传统爬虫技术的童鞋也可以无痛写定向爬虫了。
    请问楼主选择node是否处于这方面的考虑?
    Ariagle
        30
    Ariagle  
    OP
       2013-08-24 23:58:34 +08:00
    @emohacker 是的,若原本就懂类JQuery的选择器操作,那会有天然的优势。另外就是相对诸如Python等其他后端语言,我们对JS更熟一些。
    xieren58
        31
    xieren58  
       2013-08-25 09:54:07 +08:00
    用上node的cheerio,我和我的小伙伴们都惊呆了 ~~
    gdzdb
        32
    gdzdb  
       2013-08-29 15:08:04 +08:00
    我也来推荐一个node的爬虫模块:https://github.com/cgiffard/node-simplecrawler
    ling0322
        33
    ling0322  
       2013-08-29 15:26:43 +08:00
    咱报个名呢> <
    jinwyp
        34
    jinwyp  
       2013-08-30 11:33:08 +08:00
    没人用phamtomjs? 和node phamtom
    martinbruce
        35
    martinbruce  
       2013-08-30 15:13:06 +08:00
    @kenneth 这方面的高手啊! 求携带,最近一直在研究crawler
    kenneth
        36
    kenneth  
       2013-08-30 15:20:29 +08:00
    @martinbruce 欢迎来我网站和我交流mvmap.com,或者直接加我QQ:50009371
    kenneth
        37
    kenneth  
       2013-08-30 18:03:25 +08:00
    @clowwindy
    @isayr
    影大指的的爬虫的链接发现?这要看是盲爬,还是定向爬了。定向爬是用正则写规则,盲爬就是深度优先和广度优先,还有控制爬取的深度。
    clowwindy
        38
    clowwindy  
       2013-08-30 22:14:03 +08:00
    @kenneth 非定向抓取去重是个难题,我们以前的搜索项目也遇到了,没有很好的解决。比如爬淘宝,如何发现商品,如果顺着链接忙爬,会陷入各种搜索过滤条件的组合之中。这些搜索条件大部分是搜不出结果的。搜出结果的,结果条目也大量重复。我们虽然尝试用一些模型去学习和预测,但效果很差。最后只能单纯限制抓取深度。
    binux
        39
    binux  
       2013-08-30 22:18:02 +08:00
    @clowwindy
    1、去除无效参数
    2、泛滥控制
    3、翻页索引识别
    4、链接发现能力挖掘
    等等等等。。
    TimePower
        40
    TimePower  
       2013-08-31 20:17:51 +08:00
    你们服务器被墙了~?
    Ariagle
        41
    Ariagle  
    OP
       2013-08-31 20:52:07 +08:00
    @ling0322 可QQ联系。

    @TimePower 没有,可能是你的网络问题吧?
    crny520
        42
    crny520  
       2013-08-31 21:04:50 +08:00
    @kenneth 哥,牛吹太大了,你的PY也不是会太久.
    kenneth
        43
    kenneth  
       2013-09-02 17:25:48 +08:00
    @crny520 我一直都是小菜鸟。没有吹牛,只是贡献爬虫思路而已。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     854 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 22:22 PVG 06:22 LAX 15:22 JFK 18:22
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86