做个简单易用通用型采集器不容易,这个项目已经了 6 年时间,还没完还将继续。
3 年前第一次发布
http://v2ex.com/t/65371#reply149
第一次发布后有人说太复杂,有人说应该提供独立的 WEB 管理界面等等,花了 3 年时间在这个版本都有实现,并且做了很多的重构与功能完善。
三年前注册的用户,可以直接安装使用(鸟巢采集器个人用户终身免费使用),
项目地址
https://github.com/speed/newcrawler
目前还不打算开放注册,准备再测试一个月(请不要申请邀请码)
鸟巢采集器
http://www.newcrawler.com
测试帐号(请使用海外节点,因为 GAE,OpenShift 都已被墙)
username:test password:test
演示视频
http://video.newcrawler.com/newcrawler_v2.2.mp4
http://ww3.sinaimg.cn/large/5e24c9a7gw1f2sj1vgfx8j20zk0rhtg2.jpg
![]() | 1 rubyvector 2016-04-11 10:28:49 +08:00 ![]() 楼主强人哦.界面细腻,功能强大到难以想像.不知道处理有 IP 限制的页面是否有解决方案 |
![]() | 2 mazyi PRO ![]() cool |
![]() | 3 shiny 2016-04-11 10:35:15 +08:00 ![]() 以前也考虑过写类似东西,但思路不及楼主。看得出花费了大量心血。 |
![]() | 4 stiekel 2016-04-11 10:41:07 +08:00 ![]() 有毅力,一个项目能够坚持这么多年,赞! |
![]() | 5 yanyuan2046 2016-04-11 10:42:39 +08:00 ![]() 牛逼,能用 6 年做一件事的都是牛人 |
![]() | 6 server 2016-04-11 10:51:03 +08:00 牛人,毅力!! |
![]() | 7 whahuzhihao 2016-04-11 10:58:30 +08:00 好棒!楼主好毅力 |
![]() | 8 pypy 2016-04-11 10:59:00 +08:00 好厉害!学习楼主这种精神! |
![]() | 9 sohoer OP |
![]() | 10 mew7wo 2016-04-11 11:15:32 +08:00 楼主牛人 已安装试用 |
![]() | 11 kukat 2016-04-11 11:18:32 +08:00 有 docker image 吗? |
吓到了,好强大。。。。 绝对大神 |
![]() | 13 sohoer OP |
![]() | 14 feather12315 2016-04-11 11:25:54 +08:00 via Android @sohoer 爬虫共享赞一个。 |
![]() | 15 sylviayoung 2016-04-11 11:30:01 +08:00 via iPad 佩服楼主持之以恒的精神! |
![]() | 16 leehon 2016-04-11 11:30:05 +08:00 6 年有点太长,一直是楼主一个人开发吗 |
![]() | 17 alongdj 2016-04-11 11:33:57 +08:00 via Android 楼主好毅力… |
18 inoricho 2016-04-11 11:34:08 +08:00 楼主大触! |
![]() | 19 wuyadong 2016-04-11 11:54:01 +08:00 楼主,吊~! |
![]() | 20 zeac 2016-04-11 11:56:12 +08:00 佩服~ |
![]() | 21 keepcleargas 2016-04-11 11:59:12 +08:00 大牛 膜拜. |
![]() | 22 Kilerd 2016-04-11 12:01:25 +08:00 太厉害了,坚持了那么久,我很久之前也写过一个,不过完全不通用啊。 |
![]() | 23 mahone3297 2016-04-11 12:05:15 +08:00 什么毅力居然让你坚持了 6 年。。。赞。。。 |
![]() | 24 kutata 2016-04-11 12:06:08 +08:00 这项目的构建方式刷新了三观,好腻害..... |
![]() | 25 qa52666 2016-04-11 12:29:14 +08:00 牛逼 |
![]() | 26 soulteary 2016-04-11 12:30:43 +08:00 成功炸出来潜水党...点赞。 |
![]() | 27 dong3580 2016-04-11 12:38:35 +08:00 已经 star,真是膜拜大牛啊, |
28 ixinshang 2016-04-11 12:41:02 +08:00 在树莓派贴吧 看过一个类似的 info |
29 sunbeams001 2016-04-11 12:45:40 +08:00 定制度和完成度都好高……膜拜下 |
![]() | 30 Xrong 2016-04-11 12:45:46 +08:00 我了个去啊,牛逼到家啊。。。给楼上点个赞啊 |
31 heige853 2016-04-11 12:49:17 +08:00 看了下 好牛逼 颠覆了对以往采集工具的理解~ |
![]() | 32 Asimov 2016-04-11 12:49:29 +08:00 via Android 回家试试 |
![]() | 33 missqso 2016-04-11 13:00:27 +08:00 好厉害啊,很多 ux 动画也是非常的精致。 |
![]() | 34 FanError 2016-04-11 13:02:09 +08:00 一登录进去 NPE 了哦 java.lang.NullPointerException at lllllllllllllll.IIlIIllllIIlllllI.lIlIllIllIIIllI(Unknown Source) at lllllllllllllll.IIlIIllllIIlllllI.IIIIIllIlIIIIII(Unknown Source) at lllllllllllllll.IIlIIllllIIlllllI.IIIIIIlllIlllIl(Unknown Source) at lllllllllllllll.IIlIIllllIIlllllI.IIlIIIlIlIIlIIl(Unknown Source) at lllllllllllllll.IIlIlllIlllIlIIII.lIIllIllllIIIIl(Unknown Source) at lllllllllllllll.IIlIlllIlllIlIIII.check(Unknown Source) at sun.reflect.GeneratedMethodAccessor60.invoke(Unknown Source) at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source) at java.lang.reflect.Method.invoke(Unknown Source) at lllllllllllllll.IIlIlIllIIIlIlIll.IIIIlIlllIIlIll(Unknown Source) at lllllllllllllll.IIlIlllIlIllllIIl.call(Unknown Source) at lllllllllllllll.IIlIIlIIIlIIlIIII.IIlIIlIlIlIlIIl(Unknown Source) at lllllllllllllll.IIlIIlIIIlIIlIIII.service(Unknown Source) |
![]() | 35 Caratpine 2016-04-11 13:03:51 +08:00 好厉害,赞赞赞 |
![]() | 36 loadingimg 2016-04-11 13:04:45 +08:00 膜拜一下 |
![]() | 37 ketle 2016-04-11 13:07:08 +08:00 可视化的怎么弄 |
![]() | 38 Sunya 2016-04-11 13:09:56 +08:00 via iPhone wecl come back 。赞 |
![]() | 39 csx163 2016-04-11 13:29:50 +08:00 三年前看过,记得当时根本无从下手,现在真的好用多了。 [赞] |
![]() | 41 sohoer OP 上一次发布有人说访问太慢, 所以我自己实现了分布式同步,目前有三个节点, aliyun 、 gae 、 linode 被墙的资源如 GAE 请使用 linode(海外节点)访问 |
![]() | 42 frankmdong 2016-04-11 14:05:12 +08:00 好毅力 已 star |
43 xiaogouxo 2016-04-11 14:13:22 +08:00 楼主太刁了。已 star |
44 walkershow 2016-04-11 14:25:06 +08:00 楼主牛逼啊! |
![]() | 45 sohoer OP @leehon 一直都是一个人开发 有时候想想都觉得自己很强大,坚持这么久做一件事情 无数次编译,数不清的重构,每一次重构都很痛苦 刚开始程序员生涯的时候做过很多垃圾站,也用过不少采集器 后面知道 GAE 免费,于是想用很多的 GAE APP 来搭一个免费的爬虫网络(违反 TOS ) 基于 GAE 开发后发现 PAAS 平台限制太多,后来加上了标准的 JAVA 环境支持 目前同时支持 GAE 与标准 JAVA 环境,开发上也增加不少难度, 谁让我想吃免费的蛋糕呢! 最后大家都能有免费蛋糕吃 |
![]() | 46 xingshu 2016-04-11 14:36:52 +08:00 能留个邮箱么,有点其他需求,希望能通过邮箱沟通。 |
![]() | 47 sohoer OP |
49 fengxiang 2016-04-11 15:15:29 +08:00 via Android 手动点赞,楼主能坚持真的很厉害。不像某些项目,一堆 bug 还到处宣扬。 |
![]() | 50 gimp 2016-04-11 15:36:8 +08:00 佩服楼主的毅力和能力,点赞! |
![]() | 51 mcwanderer 2016-04-11 16:13:45 +08:00 膜拜 |
52 badcode 2016-04-11 16:15:17 +08:00 ![]() 看哭了,我确定是回这贴的 |
54 DesignerSkyline 2016-04-11 16:36:35 +08:00 给你点赞啦!希望以后也继续更新 ![]() ![]() ![]() |
![]() | 55 Flygoat 2016-04-11 16:40:01 +08:00 via iPad 垃圾站助手? |
![]() | 56 sohoer OP @Flygoat 现在不做垃圾站了,像这样的 http://www.shishibi.com(半成品) |
![]() | 58 sohoer OP |
![]() | 59 ven 2016-04-11 18:03:57 +08:00 太强大了!赞! |
![]() | 61 binux 2016-04-11 18:06:56 +08:00 |
![]() | 62 ddter 2016-04-11 18:26:27 +08:00 不是泼冷水啊,这个跟八爪鱼比起来有啥明显的优势吗。。。 |
![]() | 63 jiezhi 2016-04-11 18:41:14 +08:00 牛人,学习坚持精神! |
![]() | 64 sohoer OP @ddter 八爪鱼带个浏览器跑耗资源,好处是真的通用,八爪鱼能在 gae,openshift 上跑吗? |
![]() | 65 sohoer OP |
![]() | 66 HanSonJ 2016-04-11 19:08:38 +08:00 我吓尿了,好厉害! |
68 leafof 2016-04-11 19:18:01 +08:00 很牛!可惜暂时用不到 |
![]() | 69 ftp11yyy 2016-04-11 19:30:38 +08:00 点赞,好厉害! |
![]() | 70 lemayi 2016-04-11 19:37:01 +08:00 太 nb 了! |
![]() | 71 alocne 2016-04-11 19:37:43 +08:00 好厉害 |
![]() | 72 isb 2016-04-11 20:06:33 +08:00 惊呆。~ 好厉害!! |
![]() | 73 yylzcom 2016-04-11 21:00:18 +08:00 via Android 我见过的收藏人数最多的一个帖子 |
![]() | 74 imWBB 2016-04-11 21:26:46 +08:00 点赞 |
![]() | 75 xiaocsl 2016-04-11 21:34:39 +08:00 在以前的公司,有过类似的. 我负责前端,开发一个 Chrome 插件,来让人选择爬取的内容. 楼主这个,看功能要完善好多.犀利啊~ |
![]() | 76 huijian222 2016-04-11 22:05:49 +08:00 cool |
![]() | 77 jaylong 2016-04-11 22:38:14 +08:00 好棒! |
78 hpeng 2016-04-11 23:03:33 +08:00 好牛逼。读书的时候就有这个想法,但是并没有做下去。实在佩服,佩服。 |
![]() | 79 h4lt 2016-04-11 23:12:31 +08:00 叼炸了。正好有相关的需要,学习学习。 |
![]() | 80 strwei 2016-04-12 00:03:14 +08:00 功能强大到爆,可惜不适合小白用 |
![]() | 81 branchzero 2016-04-12 01:52:35 +08:00 好强大啊,已 star ,佩服 LZ 的毅力! |
![]() | 82 konakona 2016-04-12 02:01:47 +08:00 看了介绍视频,很强大! 非常感谢楼主分享! |
83 jacker 2016-04-12 08:38:47 +08:00 和国外的 kimono 太像啦 |
![]() | 85 cxshun 2016-04-12 09:26:19 +08:00 好强大,佩服楼主! |
![]() | 86 codeyung 2016-04-12 15:01:22 +08:00 支持楼主! |
![]() | 87 wq2016 2016-04-12 15:15:09 +08:00 支持一个! |
![]() | 88 myforgame 2016-04-12 15:52:48 +08:00 爆了 |
90 jacker 2016-04-12 21:17:35 +08:00 以前做过 SEO ,采集方面主要是采集后伪原创处理然后发布,现在主要做一些运营方面,会遇到需要采集一些数据做分析,根据这两方面我个人感觉可以加上的几个功能是 1.根据部分开源的程序有通用的规则,方便小白来采集(如 WordPress ,或者 magento ); 2.对接一些 API ,如 copypass 等 如果能根据数据生成图就更好啦 kimono 可以生成自己的 API ,这个功能也是非常不错的 |
![]() | 91 viosey 2016-04-13 00:21:57 +08:00 太强大了, 虽然说个人免费使用, 但是即使收费了也是毫不犹豫的买买买 |
![]() | 92 sohoer OP |
93 vvaaiinn 2016-04-13 11:26:21 +08:00 NB 啊。求个邀请码注册玩玩 |
![]() | 94 wingyiu 2016-04-15 19:29:03 +08:00 NB |
![]() | 95 wingyiu 2016-04-15 19:36:31 +08:00 test 账号进去各种 error ,引导做得不好,居然不是开源,不过好像反编译就行了 |
96 quericy 2016-04-20 09:11:33 +08:00 看完 LZ 的项目,感觉自己写的爬虫的通用性就是个笑话 6 年....佩服 LZ 的毅力 |
![]() | 97 mew7wo 2016-05-25 12:51:23 +08:00 个人安装之后,用什么帐号可以登录使用个人采集器 |
![]() | 98 wujunze 2016-08-19 13:48:22 +08:00 佩服楼主的毅力 |
![]() | 99 sparkssssssss 2016-08-20 07:25:34 +08:00 via Android 膜拜!!!! |
100 fanghui 2017-02-21 00:31:17 +08:00 @sohoer 主要问题是没有 xpath 表达式显示在页面的左上角,你可以看下截图,截图地址: https://pan.baidu.com/s/1ctf1Yu |