我把 AI 用到了爬虫上,做了一款工具 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
xjiang1982154112
5.21D
V2EX    分享创造

我把 AI 用到了爬虫上,做了一款工具

  •  
  •   xjiang1982154112
    PRO
    jufeng-2022 5 天前 6221 次点击

    一句话介绍

    URL + 一句话,自动监控网页内容更新

    猫头鹰 AI mtywatch.com

    使用示例

    • 某事业单位的招聘公告页 URL + "有行政、文书类岗位的招聘公告,通知我"
    • 某热榜页 URL + "有突发的公共安全事件发生通知我,比如各种自然灾害、卫生食品安全事件"
    • 某地方政府部门公告页 URL + "有学校、医院相关的建设、改建类的项目公告,通知我"

    功能说明

    • 自动分析:AI 自动分析并监控页面,不需要写代码、不用配 RPA 脚本、不需要 RSS 支持
    • 自动修正:如果页面改版,AI 会自动进行修正适配
    • 多种通知:支持邮件、短信、飞书、钉钉、自定义 webhook 等通知方式

    操作步骤

    超简单,三步搞定

    1. 输入要监控的 URL

    2. 输入你想关心的数据说明

    3. 点击自动分析,创建监控任务

    价格

    • 免费用户可以监控 5 个网站
    • 注册赠送 100 积分,签到、分享都可以获得大量积分

    个人日常使用足够了


    以上是标准产品介绍,接下来聊聊我的想法。

    20 多年前,我刚刚成为程序员,对爬虫技术就很感兴趣,一直觉得爬虫是大有前途的方向。但是我感兴趣的不是大量抓取数据、不是毫秒响应抢茅台~ 而是很多做小生意的人、学生、创业者,他们需要关注一些网站:同行、供应商、政府部门、电商平台、学术论坛等等,我见过他们花几百几千找人写爬虫,用几天就不能用了;也见过他们花时间学爬虫工具,学了几天放弃了。

    要满足他们的需求不难,熟练的爬虫工程师可能只要花 1 个小时就能写好代码。难得是这些需求人群过于零散、网页类型千奇百怪。我尝试过很多方法,也尝试过做一个更友好的图形化爬虫配置工具。始终感觉是技术人员的自嗨行为,这样的工具,做的再友好,仍然不是普通人学的会的。

    23 年大模型刚出现的时候,重新唤起了我做这件事情的心思,但还是实验失败了; 24 年不死心又实验了一次,能力勉强能落地,但是 tokens 的成本不足以形成商业产品;直到今年,大模型在编程领域的神奇能力,解决我最后一块拼图。

    心心念了 20 年的产品,终于把她做出来了。


    以上是我的碎碎念,接下来我要寻求帮助了!

    我们略懂技术

    技术路线我们已经实验成功了,虽然产品刚上线,还需时间打磨,但我相信我们的技术团队能把她做好,也希望大家可以提出宝贵意见,耐心等待我们把她雕刻完美。

    我们不太懂市场

    我粗浅的理解为,原来饱受爬虫配置工具荼毒的人群,就是我们的客户;那些做小生意的人、学生、创业者,也是我们的客户;我只要把一句话监控网页这个核心能力做好了,应该有我们团队一口汤喝!

    如我所说,这很粗浅,我需要大家的看法,我们需要鼓励,更需要批评!!

    我们不太懂营销

    额,花钱打广告还是会的;嗯,也只会一半:花钱 -_-!

    我都不知道应该如何发问,遇到人只能说一句:我要怎么做?你可以从头开始教我的 -_-!

    第 1 条附言    3 天前
    听人劝吃饱饭 -_-

    已上线邮箱登录功能,欢迎大家体验;

    多谢大家提出的宝贵意见,我们会持续优化升级 /抱拳
    59 条回复    2025-12-20 23:02:18 +08:00
    shouh
        1
    shouh  
       5 天前   1
    要手机注册..算了
    doubleweiwei
        2
    doubleweiwei  
       5 天前
    挺好,轻量化。不错的尝试。只是商业舆情现在要求越来越高,譬如全网数据的要求,这里面包括海量数据,而且是通过关键词(短尾词+Ai 联想词)来确定数据范围的。
    zhangk23
        3
    zhangk23  
       5 天前   1
    要手机注册的话有点太麻烦了
    billccn
        4
    billccn  
       5 天前   1
    我之前副业尝试做过这个方向,最后觉得拿出来卖法律问题搞不定,就只有自己用了。

    其实主要问题是 AI 算力即使是自己搭建也非常的昂贵。如果要收用户钱那其实很难推广开,因为绝大多数的用户时间不值钱,真正愿意交钱的不少属于灰产,就带来了我说的法律问题。
    dearmymy
        5
    dearmymy  
       5 天前
    兄弟这玩意是法律问题,现阶段对方用你程序干任何坏事,你必进去,得不偿失的。
    Blanke
        6
    Blanke  
       5 天前 via Android
    n 年前就想做类似的东西了,xx 更新了通知我,当时想的是普通用户有上手门槛。现在 ai 出来后确实不需要手动写 xpath 或类似解析的代码了。但是几个问题,怎么处理反爬,国内大厂反爬很严重的,比如 贴吧 微博 淘宝 微信公众号等,还有怎么分钟没有网页的信息源,比如只有 app 没有网页的产品,逆向 api 吗,这种手动维护量很大。
    lambs13
        7
    lambs13  
       5 天前 via iPhone
    以前有个扩展,监控网页变化的,只能监控某个关键词,不够智能,试试这个
    lswlray
        8
    lswlray  
       5 天前   1
    我还以为又有新人作品,仔细一看,还是昨天看过的。
    那我就从我自己的商业需求角度来说说吧:

    1 、合规:产品不能随意提供使用,必须要走商务合同形式,在合同中明确约定用途、以及由购买方承担法律责任。
    2 、产品建议:
    能够解决各种常见类型的登录验证码,能够支持一定程度的 IP 池,能够支持简单的脚本和变量,能够支持采集数据导出,能够支持 API 集成
    3 、推广:以企业应用为对象,向企业信息化系统商推销、成为合作伙伴、销售给他们的客户。
    xjiang1982154112
        9
    xjiang1982154112  
    OP
    PRO
       5 天前
    @shouh @zhangk23 马上上线邮箱登录
    xjiang1982154112
        10
    xjiang1982154112  
    OP
    PRO
       5 天前
    @lswlray /抱拳/抱拳 多谢建议,您建议的产品功能正在开发中
    BingoW
        11
    BingoW  
       5 天前   1
    挺好的创业思路,并落地。但是法律风险是一方面,另一方面有一些成熟的工具,通过配置也能做到类似的程度,比如八爪鱼、本身就有智能识别网页+rpa 发送通知的功能。当然目前还是有人有公司急需数据会去找人写爬虫代码。我后面会使用看看你的产品,如果它能采集亚马逊,那我觉得这个产品相当能打。
    MEIerer
        12
    MEIerer  
       5 天前   1
    为什么要手机注册?我的数据采集产品直接免注册了。
    dacapoday
        13
    dacapoday  
       4 天前
    搞爬虫的真是一茬又一茬,抓了一批,又冒出一批。没背景没背书的,可能钱还没到账,就已经蹲看守所了。
    xjiang1982154112
        14
    xjiang1982154112  
    OP
    PRO
       4 天前
    @dacapoday 合理合规使用,没问题的。
    最高检,2025 年 11 月 29 号 刚发的解释:厘定边界合理规制网络爬虫行为 https://www.spp.gov.cn//llyj/202511/t20251129_712355.shtml
    xjiang1982154112
        15
    xjiang1982154112  
    OP
    PRO
       4 天前
    @MEIerer 马上改进
    flyme2them00n
        16
    flyme2them00n  
       4 天前
    @BingoW 我试了下监控某个分类的新品榜,其它的没有深入的去搞了
    zhangk23
        17
    zhangk23  
       4 天前   1
    xjiang1982154112
        18
    xjiang1982154112  
    OP
    PRO
       4 天前
    @Blanke 感谢兄弟的建议
    1 、反爬确实是一个核心问题,我们的原则是:首先控制频率(最低 15 分钟一次),不会造成破坏性攻击。然后,我们这个产品是做提醒服务的,不做内容搬运,很难触碰到“实质性替代”原则,如果还出现验证码这样的拦截手段,我们是打算不处理的。
    2 、app 这个场景,我们还在研究实验,目前的技术路线是打算通过真机或虚机环境,利用视觉或者 ADB 提取数据。不做逆向 api

    实质性替代原则,参考最高检对爬虫行为的最新解释(没有形成实质性替代,很难入罪):
    厘定边界合理规制网络爬虫行为
    https://www.spp.gov.cn//llyj/202511/t20251129_712355.shtml
    necopp
        19
    necopp  
       4 天前 via iPhone   1
    要手机号注册 还是算了吧
    pyhfuweihong
        20
    pyhfuweihong  
       4 天前   1
    我试用了一下,我要监控某一品类的新品,新品页面有多页,你这个工具没有自动去翻页搜索
    xjiang1982154112
        21
    xjiang1982154112  
    OP
    PRO
       4 天前
    @necopp 马上开放邮箱注册和非登录用户体验功能,抱歉给您带来了不好的体验
    xjiang1982154112
        22
    xjiang1982154112  
    OP
    PRO
       4 天前
    @pyhfuweihong 自动翻页和页面下探功能,我们正在实验,要同时保证准确度和 tokens 成本,还是有点难度的,相信我们,请您耐心等待 /抱拳
    vita666
        23
    vita666  
    PRO
       4 天前
    为什么不支持 US 的号码
    xjiang1982154112
        24
    xjiang1982154112  
    OP
    PRO
       3 天前
    @vita666 马上开放邮箱登录
    dacapoday
        25
    dacapoday  
       3 天前
    @xjiang1982154112 要么 服务提供方 是 类似企查查 这类有背书 或与数据源有协议的。要么服务受用方 有法律援助,比如为地方政府,企事业单位 做舆情。甲乙都是老百姓,即使法律上占理,也能让你先体验一段时间的免费食宿。
    sojourner
        26
    sojourner  
       3 天前
    @xjiang1982154112 你所面对的不是爬虫的使用是否合法,而是使用了你的爬虫工具干坏事是否会被牵连。
    wellqq
        27
    wellqq  
       3 天前 via iPhone
    控商店有上新可以?
    yb2313
        28
    yb2313  
       3 天前
    红豆生南国,此物最相思
    56way
        29
    56way  
       3 天前   1
    这个场景不错我曾经遇到过类似的需求,楼主可以借鉴一下卖给某些公司,,具体场景就是可以监控一些国内招投标的政府公告,生成摘要做成每日监控啥的。这个场景是有真实的应用场景的。我做了个本地版 Python 的,只是卖给什么人其实需要楼主自己去拓展。。我是给朋友做了一个工具
    xjiang1982154112
        30
    xjiang1982154112  
    OP
    PRO
       3 天前
    @wellqq 可以的
    yaodd
        31
    yaodd  
       3 天前   1
    网站最下面的"用户怎么说"版块,不是真实的吧?看着不太真实,比如凌晨 2 点抢演唱会门票这种
    mastcer
        32
    mastcer  
       3 天前   1
    分析失败: 属性提取失败: 服务返回错误: 火山 API 调用失败: HTTP 400 Bad Request: Total tokens of image and text exceed max message tokens. Request id: 021766040844059636b2bbc085fdc04ce653f47fa25fd563dbd23
    DXpro
        33
    DXpro  
       3 天前   1
    方向错了。 太低频了。
    YJi
        34
    YJi  
       3 天前
    @56way 已经有个 V 友做了招投标信息的采集网站了。
    56way
        35
    56way  
       3 天前   1
    @YJi 这玩意又不是垄断。。拼的是运营能力与营销渠道。。技术反而是最不重要的那个。。。淘宝做了电商 京东不也做了,拼多多还杀进来。。哪有什么别人做了我就不能做的道理
    xjiang1982154112
        36
    xjiang1982154112  
    OP
    PRO
       3 天前
    @56way 是这个道理,最后还是拼长线的运营服务能力。有很多生意其实都是:再多人做都不算多的
    xjiang1982154112
        37
    xjiang1982154112  
    OP
    PRO
       3 天前
    @DXpro 我觉得不低~~~
    xjiang1982154112
        38
    xjiang1982154112  
    OP
    PRO
       3 天前
    @mastcer 马上排查问题 /抱拳
    xjiang1982154112
        39
    xjiang1982154112  
    OP
    PRO
       3 天前
    @yaodd 拙劣的营销手段,见笑。
    YJi
        40
    YJi  
       3 天前   1
    @56way #35 没有这个意思哈,因为他们的网站做的确实还不错,目前应该也走通商业化了,如果做这个方向可以看一看他们的。 并且我也是做数据采集的,就更明白这个道理了 哈哈。
    xjiang1982154112
        41
    xjiang1982154112  
    OP
    PRO
       3 天前
    @YJi 哪个网站?我们去学习学习
    YJi
        42
    YJi  
       3 天前
    yishidixia
        43
    yishidixia  
       3 天前   1
    xjiang1982154112
        44
    xjiang1982154112  
    OP
    PRO
       3 天前
    ffxung
        46
    ffxung  
       3 天前   1
    挺不错的工具
    nancheng911
        47
    nancheng911  
       3 天前
    不错的工具
    xujinkai
        48
    xujinkai  
       3 天前 via Android   1
    挺好的,我也想过这个,算是 AI 最适合干的事之一
    xjiang1982154112
        49
    xjiang1982154112  
    OP
    PRO
       3 天前
    @shouh @zhangk23 @MEIerer @necopp @vita666 邮箱登录功能已上线,欢迎大家体验
    laojuelv
        50
    laojuelv  
    PRO
       3 天前   1
    不错的工具,我试了一下 https://v2ex.com/t/1179345 这个地址,提示启用反爬虫机制,搞不定,这种怎么办?
    xjiang1982154112
        51
    xjiang1982154112  
    OP
    PRO
       3 天前
    @laojuelv 我们主要业务在国内开展,直接提供翻墙肯定不行~~过几天会发布浏览器插件版本,用户自己翻墙后在本地监控。。后续可能会考虑做海外版本的
    jiandandkl
        52
    jiandandkl  
       3 天前
    需要登录的可以用吗
    xjiang1982154112
        53
    xjiang1982154112  
    OP
    PRO
       3 天前   1
    @jiandandkl 浏览器插件版本支持这种场景,本月会发布插件版本
    Jirry
        54
    Jirry  
       2 天前   1
    邮箱重置密码一直提示验证码无效或过期

    注册时随机的密码,没保存,找不回了
    xjiang1982154112
        55
    xjiang1982154112  
    OP
    PRO
       2 天前
    @Jirry 马上排查问题,稍等
    xjiang1982154112
        56
    xjiang1982154112  
    OP
    PRO
       2 天前   1
    @Jirry 已修复,/抱歉/抱歉
    MozzieW
        57
    MozzieW  
       2 天前
    @xjiang1982154112 #18 这个链接写着是理论研究,看作者是检查长,类似论文,“法律解释”这个词不是这样用的,有专门的意义。
    爬虫最常见的罪名是“非法入侵系统罪”,这个罪不以后果来衡量,而是以行为是否符合定义评判。如果网站加上了反爬虫手段,百分百符合“入侵”的定义。

    @lswlray 犯罪行为,不一定能通过合同完全规避责任。
    Edward4074
        58
    Edward4074  
       2 天前
    N 年前 AI 还没起来的时候,有一个叫“后续”的应用,然后就没有然后了
    cheese
        59
    cheese  
       1 天前
    即刻当年做过一个差不多的 idea ,对微博,闲鱼这类 app 做监控,后来没做下去
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5869 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 36ms UTC 02:11 PVG 10:11 LAX 18:11 JFK 21:11
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86