V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
xjiang1982154112
5.21D
V2EX  ›  分享创造

我把 AI 用到了爬虫上,做了一款工具

  •  
  •   xjiang1982154112 ·
    jufeng-2022 · 22 小时 45 分钟前 · 1168 次点击

    一句话介绍

    URL + 一句话,自动监控网页内容更新

    猫头鹰 AI mtywatch.com

    使用示例

    • 某事业单位的招聘公告页 URL + "有行政、文书类岗位的招聘公告,通知我"
    • 某热榜页 URL + "有突发的公共安全事件发生通知我,比如各种自然灾害、卫生食品安全事件"
    • 某地方政府部门公告页 URL + "有学校、医院相关的建设、改建类的项目公告,通知我"

    功能说明

    • 自动分析:AI 自动分析并监控页面,不需要写代码、不用配 RPA 脚本、不需要 RSS 支持
    • 自动修正:如果页面改版,AI 会自动进行修正适配
    • 多种通知:支持邮件、短信、飞书、钉钉、自定义 webhook 等通知方式

    操作步骤

    超简单,三步搞定

    1. 输入要监控的 URL

    2. 输入你想关心的数据说明

    3. 点击自动分析,创建监控任务

    价格

    • 免费用户可以监控 5 个网站
    • 注册赠送 100 积分,签到、分享都可以获得大量积分

    个人日常使用足够了


    以上是标准产品介绍,接下来聊聊我的想法。

    20 多年前,我刚刚成为程序员,对爬虫技术就很感兴趣,一直觉得爬虫是大有前途的方向。但是我感兴趣的不是大量抓取数据、不是毫秒响应抢茅台~ 而是很多做小生意的人、学生、创业者,他们需要关注一些网站:同行、供应商、政府部门、电商平台、学术论坛等等,我见过他们花几百几千找人写爬虫,用几天就不能用了;也见过他们花时间学爬虫工具,学了几天放弃了。

    要满足他们的需求不难,熟练的爬虫工程师可能只要花 1 个小时就能写好代码。难得是这些需求人群过于零散、网页类型千奇百怪。我尝试过很多方法,也尝试过做一个更友好的图形化爬虫配置工具。始终感觉是技术人员的自嗨行为,这样的工具,做的再友好,仍然不是普通人学的会的。

    23 年大模型刚出现的时候,重新唤起了我做这件事情的心思,但还是实验失败了; 24 年不死心又实验了一次,能力勉强能落地,但是 tokens 的成本不足以形成商业产品;直到今年,大模型在编程领域的神奇能力,解决我最后一块拼图。

    心心念了 20 年的产品,终于把她做出来了。


    以上是我的碎碎念,接下来我要寻求帮助了!

    我们略懂技术

    技术路线我们已经实验成功了,虽然产品刚上线,还需时间打磨,但我相信我们的技术团队能把她做好,也希望大家可以提出宝贵意见,耐心等待我们把她雕刻完美。

    我们不太懂市场

    我粗浅的理解为,原来饱受爬虫配置工具荼毒的人群,就是我们的客户;那些做小生意的人、学生、创业者,也是我们的客户;我只要把一句话监控网页这个核心能力做好了,应该有我们团队一口汤喝!

    如我所说,这很粗浅,我需要大家的看法,我们需要鼓励,更需要批评!!

    我们不太懂营销

    额,花钱打广告还是会的;嗯,也只会一半:花钱 -_-!

    我都不知道应该如何发问,遇到人只能说一句:我要怎么做?你可以从头开始教我的 -_-!

    18 条回复    2025-12-18 00:39:38 +08:00
    shouh
        1
    shouh  
       22 小时 21 分钟前
    要手机注册..算了
    doubleweiwei
        2
    doubleweiwei  
       22 小时 15 分钟前
    挺好,轻量化。不错的尝试。只是商业舆情现在要求越来越高,譬如全网数据的要求,这里面包括海量数据,而且是通过关键词(短尾词+Ai 联想词)来确定数据范围的。
    zhangk23
        3
    zhangk23  
       20 小时 14 分钟前
    要手机注册的话有点太麻烦了
    billccn
        4
    billccn  
       20 小时 0 分钟前   ❤️ 1
    我之前副业尝试做过这个方向,最后觉得拿出来卖法律问题搞不定,就只有自己用了。

    其实主要问题是 AI 算力即使是自己搭建也非常的昂贵。如果要收用户钱那其实很难推广开,因为绝大多数的用户时间不值钱,真正愿意交钱的不少属于灰产,就带来了我说的法律问题。
    dearmymy
        5
    dearmymy  
       19 小时 24 分钟前
    兄弟这玩意是法律问题,现阶段对方用你程序干任何坏事,你必进去,得不偿失的。
    Blanke
        6
    Blanke  
       17 小时 11 分钟前 via Android
    n 年前就想做类似的东西了,xx 更新了通知我,当时想的是普通用户有上手门槛。现在 ai 出来后确实不需要手动写 xpath 或类似解析的代码了。但是几个问题,怎么处理反爬,国内大厂反爬很严重的,比如 贴吧 微博 淘宝 微信公众号等,还有怎么分钟没有网页的信息源,比如只有 app 没有网页的产品,逆向 api 吗,这种手动维护量很大。
    lambs13
        7
    lambs13  
       16 小时 38 分钟前 via iPhone
    以前有个扩展,监控网页变化的,只能监控某个关键词,不够智能,试试这个
    lswlray
        8
    lswlray  
       15 小时 43 分钟前   ❤️ 1
    我还以为又有新人作品,仔细一看,还是昨天看过的。
    那我就从我自己的商业需求角度来说说吧:

    1 、合规:产品不能随意提供使用,必须要走商务合同形式,在合同中明确约定用途、以及由购买方承担法律责任。
    2 、产品建议:
    能够解决各种常见类型的登录验证码,能够支持一定程度的 IP 池,能够支持简单的脚本和变量,能够支持采集数据导出,能够支持 API 集成
    3 、推广:以企业应用为对象,向企业信息化系统商推销、成为合作伙伴、销售给他们的客户。
    xjiang1982154112
        9
    xjiang1982154112  
    OP
       15 小时 22 分钟前
    @shouh @zhangk23 马上上线邮箱登录
    xjiang1982154112
        10
    xjiang1982154112  
    OP
       15 小时 19 分钟前
    @lswlray /抱拳/抱拳 多谢建议,您建议的产品功能正在开发中
    BingoW
        11
    BingoW  
       15 小时 9 分钟前   ❤️ 1
    挺好的创业思路,并落地。但是法律风险是一方面,另一方面有一些成熟的工具,通过配置也能做到类似的程度,比如八爪鱼、本身就有智能识别网页+rpa 发送通知的功能。当然目前还是有人有公司急需数据会去找人写爬虫代码。我后面会使用看看你的产品,如果它能采集亚马逊,那我觉得这个产品相当能打。
    MEIerer
        12
    MEIerer  
       14 小时 39 分钟前
    为什么要手机注册?我的数据采集产品直接免注册了。
    dacapoday
        13
    dacapoday  
       14 小时 24 分钟前
    搞爬虫的真是一茬又一茬,抓了一批,又冒出一批。没背景没背书的,可能钱还没到账,就已经蹲看守所了。
    xjiang1982154112
        14
    xjiang1982154112  
    OP
       13 小时 51 分钟前
    @dacapoday 合理合规使用,没问题的。
    最高检,2025 年 11 月 29 号 刚发的解释:厘定边界合理规制网络爬虫行为 https://www.spp.gov.cn//llyj/202511/t20251129_712355.shtml
    xjiang1982154112
        15
    xjiang1982154112  
    OP
       9 小时 53 分钟前
    @MEIerer 马上改进
    flyme2them00n
        16
    flyme2them00n  
       9 小时 29 分钟前
    @BingoW 我试了下监控某个分类的新品榜,其它的没有深入的去搞了
    zhangk23
        17
    zhangk23  
       48 分钟前   ❤️ 1
    xjiang1982154112
        18
    xjiang1982154112  
    OP
       4 分钟前
    @Blanke 感谢兄弟的建议
    1 、反爬确实是一个核心问题,我们的原则是:首先控制频率(最低 15 分钟一次),不会造成破坏性攻击。然后,我们这个产品是做提醒服务的,不做内容搬运,很难触碰到“实质性替代”原则,如果还出现验证码这样的拦截手段,我们是打算不处理的。
    2 、app 这个场景,我们还在研究实验,目前的技术路线是打算通过真机或虚机环境,利用视觉或者 ADB 提取数据。不做逆向 api

    实质性替代原则,参考最高检对爬虫行为的最新解释(没有形成实质性替代,很难入罪):
    厘定边界合理规制网络爬虫行为
    https://www.spp.gov.cn//llyj/202511/t20251129_712355.shtml
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1496 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 16:44 · PVG 00:44 · LAX 08:44 · JFK 11:44
    ♥ Do have faith in what you're doing.