鸟巢网页数据采集系统 V2.2 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sohoer
V2EX    分享发现

鸟巢网页数据采集系统 V2.2

  sohoer 2016-04-11 10:01:31 +08:00 14580 次点击
这是一个创建于 3471 天前的主题,其中的信息可能已经有所发展或是发生改变。

做个简单易用通用型采集器不容易,这个项目已经了 6 年时间,还没完还将继续。

3 年前第一次发布

http://v2ex.com/t/65371#reply149 

第一次发布后有人说太复杂,有人说应该提供独立的 WEB 管理界面等等,花了 3 年时间在这个版本都有实现,并且做了很多的重构与功能完善。

三年前注册的用户,可以直接安装使用(鸟巢采集器个人用户终身免费使用),

项目地址

https://github.com/speed/newcrawler 

目前还不打算开放注册,准备再测试一个月(请不要申请邀请码)

鸟巢采集器

http://www.newcrawler.com 

测试帐号(请使用海外节点,因为 GAE,OpenShift 都已被墙)

username:test password:test 

演示视频

http://video.newcrawler.com/newcrawler_v2.2.mp4

http://ww3.sinaimg.cn/large/5e24c9a7gw1f2sj1vgfx8j20zk0rhtg2.jpg

第 1 条附言    2016-04-11 11:15:52 +08:00
最快的部署自己的爬虫是
Fork coding 上的代码再开启演示功能,像这样
https://coding.net/u/speed/p/newcrawler/paas
第 2 条附言    2016-04-11 16:35:03 +08:00
很期待大家多多提意见,我的目标是做一款强大好用又免费的工具(仅限个人)

上一次大家提的意见我花了 3 年时间完善,这一次说不定会花 4 年,刚好 10 年磨一剑。

再次感谢各位的赞!谢谢!
103 条回复    2024-04-13 05:27:08 +08:00
1  2  
rubyvector
    1
rubyvector  
   2016-04-11 10:28:49 +08:00   1
楼主强人哦.界面细腻,功能强大到难以想像.不知道处理有 IP 限制的页面是否有解决方案
mazyi
    2
mazyi  
PRO
   2016-04-11 10:31:50 +08:00   1
cool
shiny
    3
shiny  
   2016-04-11 10:35:15 +08:00   1
以前也考虑过写类似东西,但思路不及楼主。看得出花费了大量心血。
stiekel
    4
stiekel  
   2016-04-11 10:41:07 +08:00   1
有毅力,一个项目能够坚持这么多年,赞!
yanyuan2046
    5
yanyuan2046  
   2016-04-11 10:42:39 +08:00   1
牛逼,能用 6 年做一件事的都是牛人
server
    6
server  
   2016-04-11 10:51:03 +08:00
牛人,毅力!!
whahuzhihao
    7
whahuzhihao  
   2016-04-11 10:58:30 +08:00
好棒!楼主好毅力
pypy
    8
pypy  
   2016-04-11 10:59:00 +08:00
好厉害!学习楼主这种精神!
sohoer
    9
sohoer  
OP
   2016-04-11 11:11:27 +08:00
@rubyvector 可以实现基于代理池的网页抓取插件,也可以是独立于采集器的多线 ADSL+ROS 解决方案
其实我的终极目标是基于鸟巢采集器做爬虫共享

多谢各位的友情支持
mew7wo
    10
mew7wo  
   2016-04-11 11:15:32 +08:00
楼主牛人 已安装试用
kukat
    11
kukat  
   2016-04-11 11:18:32 +08:00
有 docker image 吗?
sewyu     12
sewyu  
   2016-04-11 11:22:03 +08:00
吓到了,好强大。。。。 绝对大神
sohoer
    13
sohoer  
OP
   2016-04-11 11:24:38 +08:00
@kukat 还没有,之前准备用 BWG 做 DOCKER 弄了好久发现不支持,后续会加上

不有安装脚本也还方便吧


@mew7wo 有任何意见,建议请给我留言,重构太多目前应该还有不少 BUG
feather12315
    14
feather12315  
   2016-04-11 11:25:54 +08:00 via Android
@sohoer 爬虫共享赞一个。
sylviayoung
    15
sylviayoung  
   2016-04-11 11:30:01 +08:00 via iPad
佩服楼主持之以恒的精神!
leehon
    16
leehon  
   2016-04-11 11:30:05 +08:00
6 年有点太长,一直是楼主一个人开发吗
alongdj
    17
alongdj  
   2016-04-11 11:33:57 +08:00 via Android
楼主好毅力…
inoricho
    18
inoricho  
   2016-04-11 11:34:08 +08:00
楼主大触!
wuyadong
    19
wuyadong  
   2016-04-11 11:54:01 +08:00
楼主,吊~!
zeac
    20
zeac  
   2016-04-11 11:56:12 +08:00
佩服~
keepcleargas
    21
keepcleargas  
   2016-04-11 11:59:12 +08:00
大牛 膜拜.
Kilerd
    22
Kilerd  
   2016-04-11 12:01:25 +08:00
太厉害了,坚持了那么久,我很久之前也写过一个,不过完全不通用啊。
mahone3297
    23
mahone3297  
   2016-04-11 12:05:15 +08:00
什么毅力居然让你坚持了 6 年。。。赞。。。
kutata
    24
kutata  
   2016-04-11 12:06:08 +08:00
这项目的构建方式刷新了三观,好腻害.....
qa52666
    25
qa52666  
   2016-04-11 12:29:14 +08:00
牛逼
soulteary
    26
soulteary  
   2016-04-11 12:30:43 +08:00
成功炸出来潜水党...点赞。
dong3580
    27
dong3580  
   2016-04-11 12:38:35 +08:00
已经 star,真是膜拜大牛啊,
ixinshang
    28
ixinshang  
   2016-04-11 12:41:02 +08:00
在树莓派贴吧 看过一个类似的 info
sunbeams001
    29
sunbeams001  
   2016-04-11 12:45:40 +08:00
定制度和完成度都好高……膜拜下
Xrong
    30
Xrong  
   2016-04-11 12:45:46 +08:00
我了个去啊,牛逼到家啊。。。给楼上点个赞啊
heige853
    31
heige853  
   2016-04-11 12:49:17 +08:00
看了下 好牛逼 颠覆了对以往采集工具的理解~
Asimov
    32
Asimov  
   2016-04-11 12:49:29 +08:00 via Android
回家试试
missqso
    33
missqso  
   2016-04-11 13:00:27 +08:00
好厉害啊,很多 ux 动画也是非常的精致。
FanError
    34
FanError  
   2016-04-11 13:02:09 +08:00
一登录进去 NPE 了哦

java.lang.NullPointerException
at lllllllllllllll.IIlIIllllIIlllllI.lIlIllIllIIIllI(Unknown Source)
at lllllllllllllll.IIlIIllllIIlllllI.IIIIIllIlIIIIII(Unknown Source)
at lllllllllllllll.IIlIIllllIIlllllI.IIIIIIlllIlllIl(Unknown Source)
at lllllllllllllll.IIlIIllllIIlllllI.IIlIIIlIlIIlIIl(Unknown Source)
at lllllllllllllll.IIlIlllIlllIlIIII.lIIllIllllIIIIl(Unknown Source)
at lllllllllllllll.IIlIlllIlllIlIIII.check(Unknown Source)
at sun.reflect.GeneratedMethodAccessor60.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
at java.lang.reflect.Method.invoke(Unknown Source)
at lllllllllllllll.IIlIlIllIIIlIlIll.IIIIlIlllIIlIll(Unknown Source)
at lllllllllllllll.IIlIlllIlIllllIIl.call(Unknown Source)
at lllllllllllllll.IIlIIlIIIlIIlIIII.IIlIIlIlIlIlIIl(Unknown Source)
at lllllllllllllll.IIlIIlIIIlIIlIIII.service(Unknown Source)
Caratpine
    35
Caratpine  
   2016-04-11 13:03:51 +08:00
好厉害,赞赞赞
loadingimg
    36
loadingimg  
   2016-04-11 13:04:45 +08:00
膜拜一下
ketle
    37
ketle  
   2016-04-11 13:07:08 +08:00
可视化的怎么弄
Sunya
    38
Sunya  
   2016-04-11 13:09:56 +08:00 via iPhone
wecl come back 。赞
csx163
    39
csx163  
   2016-04-11 13:29:50 +08:00
三年前看过,记得当时根本无从下手,现在真的好用多了。 [赞]
sohoer
    40
sohoer  
OP
   2016-04-11 13:40:07 +08:00
@FanError 请切换到海外节点,在 LOGO 边上
sohoer
    41
sohoer  
OP
   2016-04-11 13:43:52 +08:00
上一次发布有人说访问太慢,
所以我自己实现了分布式同步,目前有三个节点, aliyun 、 gae 、 linode
被墙的资源如 GAE 请使用 linode(海外节点)访问
frankmdong
    42
frankmdong  
   2016-04-11 14:05:12 +08:00
好毅力 已 star
xiaogouxo
    43
xiaogouxo  
   2016-04-11 14:13:22 +08:00
楼主太刁了。已 star
walkershow
    44
walkershow  
   2016-04-11 14:25:06 +08:00
楼主牛逼啊!
sohoer
    45
sohoer  
OP
   2016-04-11 14:34:29 +08:00
@leehon 一直都是一个人开发

有时候想想都觉得自己很强大,坚持这么久做一件事情
无数次编译,数不清的重构,每一次重构都很痛苦
刚开始程序员生涯的时候做过很多垃圾站,也用过不少采集器
后面知道 GAE 免费,于是想用很多的 GAE APP 来搭一个免费的爬虫网络(违反 TOS )
基于 GAE 开发后发现 PAAS 平台限制太多,后来加上了标准的 JAVA 环境支持
目前同时支持 GAE 与标准 JAVA 环境,开发上也增加不少难度,
谁让我想吃免费的蛋糕呢!

最后大家都能有免费蛋糕吃
xingshu
    46
xingshu  
   2016-04-11 14:36:52 +08:00
能留个邮箱么,有点其他需求,希望能通过邮箱沟通。
sohoer
    47
sohoer  
OP
   2016-04-11 14:40:30 +08:00
xingshu
    48
xingshu  
   2016-04-11 15:11:46 +08:00
@sohoer 已发,谢谢。
fengxiang
    49
fengxiang  
   2016-04-11 15:15:29 +08:00 via Android
手动点赞,楼主能坚持真的很厉害。不像某些项目,一堆 bug 还到处宣扬。
gimp
    50
gimp  
   2016-04-11 15:36:8 +08:00
佩服楼主的毅力和能力,点赞!
mcwanderer
    51
mcwanderer  
   2016-04-11 16:13:45 +08:00
膜拜
badcode
    52
badcode  
   2016-04-11 16:15:17 +08:00   1
看哭了,我确定是回这贴的
sohoer
    53
sohoer  
OP
   2016-04-11 16:26:50 +08:00
@badcode 你确定吗?
DesignerSkyline
    54
DesignerSkyline  
   2016-04-11 16:36:35 +08:00
给你点赞啦!希望以后也继续更新
Flygoat
    55
Flygoat  
   2016-04-11 16:40:01 +08:00 via iPad
垃圾站助手?
sohoer
    56
sohoer  
OP
   2016-04-11 16:43:00 +08:00
@Flygoat 现在不做垃圾站了,像这样的 http://www.shishibi.com(半成品)
binux
    57
binux  
   2016-04-11 17:51:56 +08:00
选项太多了,来试试 import.io
sohoer
    58
sohoer  
OP
   2016-04-11 17:59:57 +08:00
@binux 大神来了啊!

试用过 import.io 好卡,他也有不少可配置项,并且这种可视化配置并不能做到通用
其实我那两个导出图标都还是从他们家搬来的
ven
    59
ven  
   2016-04-11 18:03:57 +08:00
太强大了!赞!
sohoer
    60
sohoer  
OP
   2016-04-11 18:04:26 +08:00
@binux

哦你说的应该是那个无需配置的功能,那个复杂点的页面就解析不出来,不确定性太多
binux
    61
binux  
   2016-04-11 18:06:56 +08:00
@sohoer 最近更新了,现在是纯 web 的了,不知道你试过没有
import.io 给通用的解决方案是后处理
我给通用的解决方案是直接写脚本

与其在一大片菜单中学习一堆新的概念,还不如学几段脚本容易
ddter
    62
ddter  
   2016-04-11 18:26:27 +08:00
不是泼冷水啊,这个跟八爪鱼比起来有啥明显的优势吗。。。
jiezhi
    63
jiezhi  
   2016-04-11 18:41:14 +08:00
牛人,学习坚持精神!
sohoer
    64
sohoer  
OP
   2016-04-11 18:50:17 +08:00 via iPhone
@ddter 八爪鱼带个浏览器跑耗资源,好处是真的通用,八爪鱼能在 gae,openshift 上跑吗?
sohoer
    65
sohoer  
OP
   2016-04-11 19:08:35 +08:00
@binux

现在的可视化配置功能是没几个选项的, 保留原来的功能配置是对这个通用型采集器的强化,
我不想要这个能用那个用不了的采集器。

拿知乎的模拟登录来说, import.io 是绝对实现不了的
知乎的登录做了几次跳转,有一次是读取 cookie 的值做的跳转
HanSonJ
    66
HanSonJ  
   2016-04-11 19:08:38 +08:00
我吓尿了,好厉害!
sohoer
    67
sohoer  
OP
   2016-04-11 19:12:23 +08:00
@binux 刚刚看到,应该是最近几天更新的,好好玩一下
leafof
    68
leafof  
   2016-04-11 19:18:01 +08:00
很牛!可惜暂时用不到
ftp11yyy
    69
ftp11yyy  
   2016-04-11 19:30:38 +08:00
点赞,好厉害!
lemayi
    70
lemayi  
   2016-04-11 19:37:01 +08:00
太 nb 了!
alocne
    71
alocne  
   2016-04-11 19:37:43 +08:00
好厉害
isb
    72
isb  
   2016-04-11 20:06:33 +08:00
惊呆。~ 好厉害!!
yylzcom
    73
yylzcom  
   2016-04-11 21:00:18 +08:00 via Android
我见过的收藏人数最多的一个帖子
imWBB
    74
imWBB  
   2016-04-11 21:26:46 +08:00
点赞
xiaocsl
    75
xiaocsl  
   2016-04-11 21:34:39 +08:00
在以前的公司,有过类似的.
我负责前端,开发一个 Chrome 插件,来让人选择爬取的内容.

楼主这个,看功能要完善好多.犀利啊~
huijian222
    76
huijian222  
   2016-04-11 22:05:49 +08:00
cool
jaylong
    77
jaylong  
   2016-04-11 22:38:14 +08:00
好棒!
hpeng
    78
hpeng  
   2016-04-11 23:03:33 +08:00
好牛逼。读书的时候就有这个想法,但是并没有做下去。实在佩服,佩服。
h4lt
    79
h4lt  
   2016-04-11 23:12:31 +08:00
叼炸了。正好有相关的需要,学习学习。
strwei
    80
strwei  
   2016-04-12 00:03:14 +08:00
功能强大到爆,可惜不适合小白用
branchzero
    81
branchzero  
   2016-04-12 01:52:35 +08:00
好强大啊,已 star ,佩服 LZ 的毅力!
konakona
    82
konakona  
   2016-04-12 02:01:47 +08:00
看了介绍视频,很强大!
非常感谢楼主分享!
jacker
    83
jacker  
   2016-04-12 08:38:47 +08:00
和国外的 kimono 太像啦
sohoer
    84
sohoer  
OP
   2016-04-12 09:08:19 +08:00
@jacker 虽然 kimono 已死,但不否认有参考他的设计
cxshun
    85
cxshun  
   2016-04-12 09:26:19 +08:00
好强大,佩服楼主!
codeyung
    86
codeyung  
   2016-04-12 15:01:22 +08:00
支持楼主!
wq2016
    87
wq2016  
   2016-04-12 15:15:09 +08:00
支持一个!
myforgame
    88
myforgame  
   2016-04-12 15:52:48 +08:00
爆了
gutianyun
    89
gutianyun  
   2016-04-12 20:17:57 +08:00
@sohoer 不是都说 python 开发爬虫不错嘛,为什么你选择 java ,谢谢回答
jacker
    90
jacker  
   2016-04-12 21:17:35 +08:00
以前做过 SEO ,采集方面主要是采集后伪原创处理然后发布,现在主要做一些运营方面,会遇到需要采集一些数据做分析,根据这两方面我个人感觉可以加上的几个功能是
1.根据部分开源的程序有通用的规则,方便小白来采集(如 WordPress ,或者 magento );
2.对接一些 API ,如 copypass 等
如果能根据数据生成图就更好啦
kimono 可以生成自己的 API ,这个功能也是非常不错的
viosey
    91
viosey  
   2016-04-13 00:21:57 +08:00
太强大了, 虽然说个人免费使用, 但是即使收费了也是毫不犹豫的买买买
sohoer
    92
sohoer  
OP
   2016-04-13 09:24:06 +08:00
@gutianyun 简单的开发一个爬虫, python 是好原生 API 就很强大,复杂的熟悉哪个用哪个,用 JAVA 只因我能撑控他,为了优化性能,还需要对内存堆栈做分析


@jacker 数据导出 API 支持 JSON 、 RSS 格式,你看演示视频里不是可以将数据发布到 plot.ly (图表生成)
vvaaiinn
    93
vvaaiinn  
   2016-04-13 11:26:21 +08:00
NB 啊。求个邀请码注册玩玩
wingyiu
    94
wingyiu  
   2016-04-15 19:29:03 +08:00
NB
wingyiu
    95
wingyiu  
   2016-04-15 19:36:31 +08:00
test 账号进去各种 error ,引导做得不好,居然不是开源,不过好像反编译就行了
quericy
    96
quericy  
   2016-04-20 09:11:33 +08:00
看完 LZ 的项目,感觉自己写的爬虫的通用性就是个笑话
6 年....佩服 LZ 的毅力
mew7wo
    97
mew7wo  
   2016-05-25 12:51:23 +08:00
个人安装之后,用什么帐号可以登录使用个人采集器
wujunze
    98
wujunze  
   2016-08-19 13:48:22 +08:00
佩服楼主的毅力
sparkssssssss
    99
sparkssssssss  
   2016-08-20 07:25:34 +08:00 via Android
膜拜!!!!
fanghui
    100
fanghui  
   2017-02-21 00:31:17 +08:00
@sohoer 主要问题是没有 xpath 表达式显示在页面的左上角,你可以看下截图,截图地址: https://pan.baidu.com/s/1ctf1Yu
1  2  
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2714 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 31ms UTC 07:29 PVG 15:29 LAX 00:29 JFK 03:29
Do have faith in what you're doing.
ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86