推荐一款轻量级的爬虫软件,希望能给大家工作带来帮助 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
bget
V2EX    程序员

推荐一款轻量级的爬虫软件,希望能给大家工作带来帮助

  •  
  •   bget 2017-06-08 17:14:04 +08:00 5474 次点击
    这是一个创建于 3048 天前的主题,其中的信息可能已经有所发展或是发生改变。

    神采采集器,软件体积很小、无需安装

    1、支持智能采集(不用配规则)、可视化采集配置(不用看源文件)

    2、支持导出到 MySQL、SQL Server、Oracle、Excel、Access

    3、支持二次开发、调用自己的算法

    下载地址(左上角下载):www.sensite.cn/bget

    与各位一样,也是一个码农。各位兄弟如果遇到使用问题,或二次开发问题,可留言给我,一起交流学习。

    23 条回复    2017-06-20 07:04:43 +08:00
    mikulch
        1
    mikulch  
       2017-06-09 01:16:55 +08:00
    界面太丑了。请个 UI 这么难吗?
    还有为啥没 mac 版啊
    bget
        2
    bget  
    OP
       2017-06-09 03:25:35 +08:00
    @mikulch 请不起 UI 啊。。mac 版目前没有的,不会写 iOS 的代码。。你可以装双系统啊? 一个 win7,一个 iOS。。
    cctrv
        3
    cctrv  
       2017-06-09 06:02:28 +08:00
    的界面。
    Mac 用路。
    我自己用 Python 一次。
    zetary
        4
    zetary  
       2017-06-09 08:42:14 +08:00
    审美确实硬伤…
    ye10010
        5
    ye10010  
       2017-06-09 10:55:11 +08:00
    这界面也不错啊,标准的 win 风格.
    问下 LZ 免费版本有什么限制?也支持二开吗?
    yjxjn
        6
    yjxjn  
       2017-06-09 11:41:14 +08:00
    楼主棒棒哒!

    但是这个网址前端。。。感觉是 XP 时代。。。哈哈哈,稍微改点 CSS,会好很多啊。
    bget
        7
    bget  
    OP
       2017-06-09 12:48:59 +08:00
    @ye10010 没有太多的区别,例如导出条数没有任何限制,商业版本主要是帮用户做二次开发。都是支持二次开发的,有现成的接口( IBget.dll ),如果有需要,去网站加我 QQ,我发一个 DEMO 代码给你。。
    oiken
        8
    oiken  
       2017-06-09 15:23:19 +08:00
    下载来试用了一下从聚合阅读网站抓取文章,结果还是很不错的。界面还好啦,容易上手是关键。 @bget 帮助信息是否可以多加点实例,我看了帮助文档没搞好,还是跑去看免费账号的例子才搞好了。另外采集时次序会影响到能否采集到内容,这个坑我是摸了一阵子才爬出来,可能需要在帮助文件里声明一下。你帮有需要的用户做二次开发,可能一时也就赚个辛苦费。我提个建议:可以考虑让用户设置试用条款后把他调试好的规则共享出来,其他用户可以通过送咖啡的形式进行鼓励,你的网站做个介绍页面和排行榜之类的,可以赚人气和佣金。做个能用的产品不容易,赞一个。
    bget
        9
    bget  
    OP
       2017-06-09 19:21:40 +08:00
    @oiken 谢谢 oiken。。采集规则使用前后标志时必须按顺序,这个在鼠标放到“采集规则列表”时会有 ToolTip 提示,我会再写到明显的位置,例如在“入门采集示例”中用粗体标出。规则市场这个建议非常好,可能需要一种积分制,我觉得可以理解为:让有需求的神采用户,方便找到另一些神采用户做规则或二次开发。
    oiken
        10
    oiken  
       2017-06-10 09:27:11 +08:00
    @bget 客气了。规则市场是聚集人气,让一般需求不必重复劳动,过滤出来的重型用户自然会找你做更有价值的二次开发。这行业不容易,但生意各人做,你加油。另外我想问问如何设置登录账号和密码,有一些网站会要求你登录后才能看到更多的页面。
    oiken
        11
    oiken  
       2017-06-10 09:34:59 +08:00
    我看到规则的设置页面:常规设置-》网站登录 这里是灰掉,不知如何打开。是付费版本才能设置的吗?
    oiken
        12
    oiken  
       2017-06-10 09:38:16 +08:00
    是的,是我没仔细看 ToolTip,提示方面你做的挺好了。
    bget
        13
    bget  
    OP
       2017-06-10 18:50:30 +08:00
    @oiken 请加我的 QQ (网站第一个 QQ ),告诉我你是 oiken 就可以。我们一起交流一些技术问题。

    另外,软件今天升级了:
    1、优化了历史记录功能,可批量进行启用、禁用操作,以及只有请求成功后再入历史记录列表(之前是提取网址时)。
    2、可标记“任务不可用”,方便团队协作。例如网站改版后,使用者把任务标记一下,由其它技术人员负责修改任务。
    3、修复 bug:任务队列中,任务排队运行时,软件窗口总是抢焦点。
    iszero
        14
    iszero  
       2017-06-11 05:44:26 +08:00 via Android
    喜欢这种简朴的界面
    Damaidaner
        15
    Damaidaner  
       2017-06-11 07:32:11 +08:00 via Android
    界面还好,感谢分享
    eseeker
        16
    eseeker  
       2017-06-11 10:28:15 +08:00
    现在的人就是矫情,这界面有什么不好,XP 时代不大多这样的界面么,好用才是王道。
    lixuda
        17
    lixuda  
       2017-06-11 19:32:48 +08:00 via Android
    不错,以后会开源吗
    bget
        18
    bget  
    OP
       2017-06-12 01:34:20 +08:00
    @lixuda 我目前努力的方向是,帮用户解决问题,给用户带来好的体验。。神采有成熟的二次开发接口,目前有 20 个接口,分布到不同的环节,例如:加载入口 URL ( URL 中,可带搜索关键词)、请求 URL、采集、发布、过滤数据、下载文件等,如果深入研究一下,几乎可以重写一个爬虫。有需要的话,可以去网站加我 QQ,我发二次开发的 DEMO 代码给你( C#代码)。或者等我整理好 DEMO 代码,发布到这里。
    NaVient
        19
    NaVient  
       2017-06-12 09:39:17 +08:00
    @bget 看到郑州大学新闻网, 难道跟楼主是校友?
    bget
        20
    bget  
    OP
       2017-06-12 14:38:43 +08:00
    @NaVient 貌似跟代码无关。。
    lixuda
        21
    lixuda  
       2017-06-12 16:28:22 +08:00 via Android
    要注册才能用?如果万一楼主网站不继续了。这个软件就无法打开?
    bget
        22
    bget  
    OP
       2017-06-12 19:43:24 +08:00
    @lixuda 是的,要注册的。。如果网站不继续,可能是因为我被饿死了。。所以为了避免楼主被饿死,你要支持一下下。
    bget
        23
    bget  
    OP
       2017-06-20 07:04:43 +08:00
    昨天发布了一个新版本( V6.1.22 ),修复了几处 bug:
    1、修复 bug:在 win2003 或 win7 经典主题下,加载任务时,进度条有时会卡死。
    2、修复 bug:winxp、win2003 上打不开内置浏览器,影响可视化采集、登录采集、捕获 POST 参数等。
    3、修复 bug:配置文件( Config.xml )和历史记录( HistoryUrls.xml )中,如果时间带有汉字(如“周六”),会加载失败。
    4、修复 bug:个别机器,检查更新时出错 Identifier '口' is not CLS-compliant parameter name: ident
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3429 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 04:50 PVG 12:50 LAX 21:50 JFK 00:50
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86