V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 3004 天前的主题，其中的信息可能已经有所发展或是发生改变。

前言

现在互联网上有这么多的采集器，我们为什么要开发爬山虎呢？

原因很简单，大部分已有的软件用起来不爽，于是我们就自己开发了一个。

特性

爬山虎采集器是一款全新的网页数据采集工具。作为一款工具软件，我们：

放弃了花哨的界面，换之以快速流畅的体验。
放弃了复杂的规则配置，开发了智能的自动提取算法。
在基于浏览器的可视化操作上，同时保留了快速的 HTTP 引擎架构。

爬山虎采集器在保持了用户体验、用户低学习成本的同时，兼顾了软件的数据抓取效率。

数据采集

爬山虎采集器能够采集互联网上的绝大部分网页，比如动态网页、静态网页、单页程序、表格数据、列表数据、文章数据、搜索引擎结果、下载图片等等。

发布数据

在采集到数据后，还可以发布到 CSV、Excel、MySQL、SQLite、Access、MSSQL、以及网站 API 接口上。

当然爬山虎采集器作为一个新上场的选手，跟前辈们相比，可能会有些缺点、问题。

欢迎您下载试用，并且给我们提供宝贵的意见。（如果你懒得下载，可以看下网站首页的演示视频：）

爬山虎采集器网站

爬山虎采集器编辑器

第 1 条附言 2017 年 12 月 23 日

补充下

采集功能：

可自动分析网页结构，自动提取数据。还有可以自动识别分页。支持下载图片、文件。对于复杂的页面，可以深入采集多级页面，灵活配置。

新版增加的功能：

增加了采集前执行脚本命令功能，对于一些单页程序，可以自动填写表单，点击，运行JS代码。
增加了瀑布流分页，针对类似微博、今日头条这种瀑布流网页，采集非常方面，不用自己去分析抓包。

关于免费版本：

目前免费版能够导出txt 1千条/每天，我觉得应该足够一般用户使用。

除此，还有一些高级功能限制，比如：增量更新、下载文件、计划任务、自定义屏蔽请求

第 2 条附言 2017 年 12 月 29 日

之前的描述可能不够直观，贴张自动识别算法的效果图吧

爬山

虎采集器

采集

数据

81 条回复 2018-10-01 13:13:16 +08:00

ResidualSoils

2017 年 12 月 2 日

不开源的话不会是打算用来挣钱吧？

hundan

2017 年 12 月 2 日 via Android

一楼这话听着怎么这么别扭

2017 年 12 月 2 日 via iPhone

来发个软件用来挣钱有啥问题吗……

i730

2017 年 12 月 2 日 via Android

一楼。。。。。。

1931

2017 年 12 月 2 日 via iPhone

P2p 种子搜索神器宇宙超级无敌加强版

est

2017 年 12 月 2 日

bandicam 亮点。

ctsed

2017 年 12 月 2 日 via Android

@ResidualSoils 碍着你了？

dzxx36gyy

2017 年 12 月 2 日

客户端软件为啥要用导出数据条数区分不同套餐... 感觉这个一般是在线服务才这么搞吧，为啥不以导出的数据源类型以及其他售后服务来区分套餐_(:з」∠)_

oness

2017 年 12 月 2 日

@dzxx36gyy 感谢建议，我在好好想下

f2f2f

2017 年 12 月 2 日

现在一在 v2 看到爬虫我就想到了煎蛋……

gouchaoer

2017 年 12 月 2 日 via Android

面向开发者不太讨好的说

cxd44

2017 年 12 月 2 日 via Android

迫切想体验

cxd44

2017 年 12 月 2 日 via Android

价格 499 元没有优惠了吗

cxd44

2017 年 12 月 2 日 via Android

支持采集论坛帖子的附件吗？

lhx2008

2017 年 12 月 2 日 via Android

和同类软件比，比如火车头比，没什么竞争力吧。
和自己写程序比，反爬虫，复杂的 ajax 数据，登录，验证码识别这些基本做不了

oness

2017 年 12 月 2 日

@lhx2008 验证码目前还在开发，其他的都可以解决的。
正是看到火车头、八爪鱼他们的优劣势，我才自己开发了这个。

oness

2017 年 12 月 2 日

@cxd44 赶紧体检，账号名发我，给你开通个权限

yeshang

2017 年 12 月 2 日

@oness 可以帮我开通个权限吗? 账号名同 V2EX ID

oness

2017 年 12 月 2 日

@yeshang 可以

yeshang

2017 年 12 月 2 日

@oness 非常感谢. 等上班的时候使用一段时间啊.

yeshang

2017 年 12 月 2 日

用户后台登入信息一直是这个: 小 bug

登陆统计
本次登录 IP：36.*.*.2
上次登录 IP：36.*.*.2
注册时间：2017/3/22 20:04:56
上次登录时间：2017/3/22 20:04:56

oness

2017 年 12 月 2 日

@yeshang 一个月经验的 web 程序员表示尽快改[捂脸]

cxd44

2017 年 12 月 2 日 via Android

@oness 账户 cxd44,谢谢

oness

2017 年 12 月 2 日

@cxd44 你先注册一个账号- -!

yakun4566

2017 年 12 月 2 日

yakun4566 老铁给个权限，先谢谢咯

cxd44

2017 年 12 月 3 日 via Android

@oness 做好啦

BlueFly

2017 年 12 月 3 日

如果可以，也申请一个测试账号，ID 同名，谢谢

oness

2017 年 12 月 3 日

@BlueFly 已经开通一个月标准版

BlueFly

2017 年 12 月 3 日

@oness 谢谢，程序非 UTF8 ？英文 Windows 上半乱码，任务列表

gelilaohuang

2017 年 12 月 3 日

求个号体验 id 同名

imnpc

2017 年 12 月 3 日

@oness ID:imnpc 求测试体验

oness

2017 年 12 月 3 日

@BlueFly 就任务列表的节点乱码吗？其他正常？

bb2018

2017 年 12 月 3 日

同求个号体验 id 同名　 bb2018

oness

2017 年 12 月 3 日

@bb2018 @imnpc @gelilaohuang
已经开通一个月标准版，赠送今天就到此为止啦

BlueFly

2017 年 12 月 3 日

@oness 菜单栏没乱码，但默认自带写好的规则是乱码

jisibencom

2017 年 12 月 4 日

收费为什么我不用成熟的火车头呢

oness

2017 年 12 月 4 日

@jisibencom 也有免费版，大部分的数据采集免费版就够了。
相比火车头，也容易上手一点。

mikii

2017 年 12 月 4 日

开发给个权限体验下，账号：mikii

glchaos

2017 年 12 月 5 日

如果可以，还请开个权限体验下，账号 glchaos，谢谢

frankyxu

2017 年 12 月 5 日

如果可以，还请开个权限体验下，账号 franky，谢谢

zhangfeiwudi

2017 年 12 月 6 日

可以爬指定人的淘宝订单吗

q99103248

2017 年 12 月 8 日

不知道能不能通过 api 来动态修改爬取列表呢，在用八爪鱼，发现没有这个 api，只能手动提交链接，很是不爽

oness

2017 年 12 月 9 日

@zhangfeiwudi 你有该指定人的账号密码，就可以
@q99103248 api 目前木有。不过你可以通过代码修改爬山虎采集器的任务 XML，来修改爬取列表。

zhangfeiwudi

2017 年 12 月 9 日

@oness 验证码也能过？淘宝的滑动验证码

oness

2017 年 12 月 9 日

@zhangfeiwudi 目前登陆是手动登陆，所以是可以的。
但是只针对单个人的，批量账号就木办法了。

1ku

2017 年 12 月 11 日

怎么去知乎提示浏览器版本过低，我最新版 Chrome

oness

2017 年 12 月 11 日

@1ku 在第三步设置里，修改下 UA

1ku

2017 年 12 月 12 日

@oness 在第一步就是这提示的

oness

2017 年 12 月 12 日

@1ku 额，先随便建个字段，到第三部设置，然后回到第二步清空字段，重新加载下网页。
目前浏览器设置放在第三步，可能有点不合理。

1ku

2017 年 12 月 12 日

@oness 放在第三部超级不合理是其一；其二添加字段和修改字段名称的交互可以再吻合协调一下的，一左一右会逼死强迫症，对了，浏览器问题解决了，但是爬知乎的图片，没成功过一次，好尴尬；其三，官方的交流群没人吗？加了好几次了

oness

2017 年 12 月 12 日

@1ku 谢谢建议,后续优化一下

hardman

2017 年 12 月 13 日

这是用啥写的

oness

2017 年 12 月 14 日

@hardman .net

taurenshaman

2017 年 12 月 19 日

@oness
安装后，没玩好。它们家的数据怎么抓？
http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=120&tableName=TABLE120&title=%CA%B3%C6%B7%C9%FA%B2%FA%D0%ED%BF%C9%BB%F1%D6%A4%C6%F3%D2%B5(SC)&bcId=145275419693611287728573704379

oness

2017 年 12 月 19 日

测试了下，这个网站要手动选择下列表。
或者直接设置列表 XPath://*[@id="content"]/div[1]/table[2]/tbody[1]/tr//td[1]/p[1]

oness

2017 年 12 月 19 日

@taurenshaman

taurenshaman

2017 年 12 月 20 日

@oness
默认分类的第一页可以抓到了。
还有 2 个问题 -_-|||
1、它的 URL 是固定的，如果我想从左侧选择 [特殊食品] - [保健食品] ，怎么做？这种切换，URL 是固定、不变的，都是通过 POST 请求数据。载入网页后，左侧的导航无效，只能选择字段。
2、关于分页。目前，政府的网站正在大量使用 MmEwMD 特性（动态混淆 Javascript ），我试了手动设置分页然后点击 [下一页] ，运行的时候，只能抓到第一页的数据，第二页就没效果了。

dengyunxuan

2017 年 12 月 20 日

如果可以，还请开个权限体验下，账号 yimosecai，谢谢

oness

2017 年 12 月 20 日

@taurenshaman
1. 这个需求已经搞定，采集前执行脚本命令，这几天发布
2. 看了下，这个页面第一页和第二页的列表结构不同，可设置列表 Xpath：//table/tbody[1]/tr//td[1]/p[1]

oness

2017 年 12 月 20 日

@dengyunxuan 免费版可以使用大部分功能的。直接下载

iambin

2017 年 12 月 22 日

爬山虎用过，挺好上手的，先不说功能如何，不过这免费版也太水了吧只能导出一千条 txt 这也叫免费版可以使用大部分功能？？？付费没问题，限制条数也算了，起码要让用户知道你这除了导出 txt 之外的其他导出是否实用吧

bravecarrot

2017 年 12 月 23 日 via iPhone

可以把广告打得详细一点，包括功能和收费情况；
需要数据的时候自己爬确实麻烦

oness

2017 年 12 月 23 日

@iambin 免费版本每天导出 1K txt，相比同类软件导出按照积分，我觉得要实在点。
其他导出是否实用这个问题，后面考虑增加试用版。

oness

2017 年 12 月 23 日

@bravecarrot 谢谢建议。尤其是对不会程序代码的人来说，好的工具就是生产力

sxw11

2017 年 12 月 24 日

为什么火绒和 360 都报木马呢？能不能解释一哈。。

oness

2017 年 12 月 24 日

@sxw11 ... 肯定是误报，我去看看提交下

oness

2017 年 12 月 27 日

@sxw11 测试了火绒，正常，没有报木马。

zenze

2017 年 12 月 28 日

反馈个问题为何官网下载安装包速度如此之慢，迅雷一直只有 6kb/s.....

xuebi1109

2017 年 12 月 28 日

@zhangfeiwudi http://order.hereserver.com/ 爬订单这个可以

rickwise

2017 年 12 月 28 日 via iPhone

@oness 还有赠送么？

oness

2017 年 12 月 28 日

@zenze 谢谢反馈。你是什么网络

oness

2017 年 12 月 28 日

@rickwise 木有了。先试试免费版吧

zenze

2017 年 12 月 28 日

@oness 上海电信就上午反馈那个时间点现在稍微好点 100kb/s 左右

graetdk

2017 年 12 月 29 日

如果是客户端的话，不能换 IP 很容易被封啊

oness

2017 年 12 月 29 日

@graetdk,自动换 IP 更新正在开发：）

graetdk

2017 年 12 月 29 日

@oness 要是搞个 Mac 版就更好了

vus520

2017 年 12 月 29 日

我记得火车头也支持这几个功能，可视化，xpath，自动分页什么的

oness

2017 年 12 月 29 日

@vus520 刚追加了效果图，可以看看

geekyoung

2018 年 1 月 3 日

看起来不错帮顶

datocp

2018 年 8 月 18 日

支持一下，最近爬公司系统的图片转换成对应的产品图号在网上搜了一下找到爬山虎马上可以上手，不像别的什么八爪鱼说是免费还要积分，还要注册登录之类。
确实挺不错的非常容易上手，也达到了最终的目的，感谢楼主的作品，谢谢！

Jmoment

2018 年 10 月 1 日

@oness 考虑开发 mac 版吗?

一款全新的网页数据采集工具：爬山虎

前言

特性

数据采集

发布数据

采集功能：

新版增加的功能：

关于免费版本：