V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
xjiang1982154112
5.58D
V2EX  ›  分享创造

我把 AI 用到了爬虫上,做了一款工具

  •  
  •   xjiang1982154112 ·
    PRO
    ·
    jufeng-2022 · 2025 年 12 月 17 日 · 31733 次点击
    这是一个创建于 84 天前的主题,其中的信息可能已经有所发展或是发生改变。

    一句话介绍

    URL + 一句话,自动监控网页内容更新

    猫头鹰 AI mtywatch.com

    使用示例

    • 某事业单位的招聘公告页 URL + "有行政、文书类岗位的招聘公告,通知我"
    • 某热榜页 URL + "有突发的公共安全事件发生通知我,比如各种自然灾害、卫生食品安全事件"
    • 某地方政府部门公告页 URL + "有学校、医院相关的建设、改建类的项目公告,通知我"

    功能说明

    • 自动分析:AI 自动分析并监控页面,不需要写代码、不用配 RPA 脚本、不需要 RSS 支持
    • 自动修正:如果页面改版,AI 会自动进行修正适配
    • 多种通知:支持邮件、短信、飞书、钉钉、自定义 webhook 等通知方式

    操作步骤

    超简单,三步搞定

    1. 输入要监控的 URL

    2. 输入你想关心的数据说明

    3. 点击自动分析,创建监控任务

    价格

    • 免费用户可以监控 5 个网站
    • 注册赠送 100 积分,签到、分享都可以获得大量积分

    个人日常使用足够了


    以上是标准产品介绍,接下来聊聊我的想法。

    20 多年前,我刚刚成为程序员,对爬虫技术就很感兴趣,一直觉得爬虫是大有前途的方向。但是我感兴趣的不是大量抓取数据、不是毫秒响应抢茅台~ 而是很多做小生意的人、学生、创业者,他们需要关注一些网站:同行、供应商、政府部门、电商平台、学术论坛等等,我见过他们花几百几千找人写爬虫,用几天就不能用了;也见过他们花时间学爬虫工具,学了几天放弃了。

    要满足他们的需求不难,熟练的爬虫工程师可能只要花 1 个小时就能写好代码。难得是这些需求人群过于零散、网页类型千奇百怪。我尝试过很多方法,也尝试过做一个更友好的图形化爬虫配置工具。始终感觉是技术人员的自嗨行为,这样的工具,做的再友好,仍然不是普通人学的会的。

    23 年大模型刚出现的时候,重新唤起了我做这件事情的心思,但还是实验失败了; 24 年不死心又实验了一次,能力勉强能落地,但是 tokens 的成本不足以形成商业产品;直到今年,大模型在编程领域的神奇能力,解决我最后一块拼图。

    心心念了 20 年的产品,终于把她做出来了。


    以上是我的碎碎念,接下来我要寻求帮助了!

    我们略懂技术

    技术路线我们已经实验成功了,虽然产品刚上线,还需时间打磨,但我相信我们的技术团队能把她做好,也希望大家可以提出宝贵意见,耐心等待我们把她雕刻完美。

    我们不太懂市场

    我粗浅的理解为,原来饱受爬虫配置工具荼毒的人群,就是我们的客户;那些做小生意的人、学生、创业者,也是我们的客户;我只要把一句话监控网页这个核心能力做好了,应该有我们团队一口汤喝!

    如我所说,这很粗浅,我需要大家的看法,我们需要鼓励,更需要批评!!

    我们不太懂营销

    额,花钱打广告还是会的;嗯,也只会一半:花钱 -_-!

    我都不知道应该如何发问,遇到人只能说一句:我要怎么做?你可以从头开始教我的 -_-!

    第 1 条附言  ·  2025 年 12 月 18 日
    听人劝吃饱饭 -_-

    已上线邮箱登录功能,欢迎大家体验;

    多谢大家提出的宝贵意见,我们会持续优化升级 /抱拳
    Solana
    V2EX 支持通过 Solana 网络向内容作者打赏
    Livid 打赏了 100 $V2EX
    139 条回复    2026-03-02 09:24:05 +08:00
    1  2  
    beerchyan
        101
    beerchyan  
       1 月 27 日   ❤️ 1
    监听的大麦的演出门票,绑定了微信,点击确认创建,提示"创建任务需要配置通知方式的详细信息"
    JEFFMEME
        102
    JEFFMEME  
       1 月 27 日   ❤️ 1
    提个优化建议,统一菜单界面:
    场景详情页时,菜单栏第三个显示的是「价格」,其他页面菜单栏第三个显示的是「会员」
    xjiang1982154112
        103
    xjiang1982154112  
    OP
    PRO
       1 月 27 日
    @JEFFMEME 多谢支出,马上修改
    xjiang1982154112
        104
    xjiang1982154112  
    OP
    PRO
       1 月 27 日
    @beerchyan 收到,我们排查一下问题,欢迎加入技术服务群,有任何问题随时反馈给我们
    iceecream
        105
    iceecream  
       1 月 27 日
    @xjiang1982154112 这不是什么司法解释,就是一片普通的文章而已,只代表法官个人的研究,至于是不是犯法。不是他说了算。是他们说了算。
    Lemonadeccc
        106
    Lemonadeccc  
       1 月 27 日
    要能爬牛客就好了,每次打开都一阵焦虑
    herozzm
        107
    herozzm  
       1 月 27 日
    太局限性了,有验证码的爬不了,需要无头浏览器的爬不了?
    nocturnal
        108
    nocturnal  
       1 月 27 日
    这种会点代码分分钟的事情
    jettzhang
        109
    jettzhang  
       1 月 28 日
    风险好高
    rickie
        110
    rickie  
       1 月 28 日
    不错
    v9912ex
        111
    v9912ex  
       1 月 28 日 via iPhone
    不少开源替代产品呀 而且这种场景基本可以不用 ai
    aero99
        112
    aero99  
       1 月 28 日   ❤️ 1
    政府的招标网站都好像无法监控,提示:

    该网站启用了访问防护

    由于该网站启用了强防护措施( WAF/Web 应用防火墙),
    云端订阅将无法自动获取目标信息
    adminpro
        113
    adminpro  
       1 月 28 日   ❤️ 1
    马上付费
    xjiang1982154112
        114
    xjiang1982154112  
    OP
    PRO
       1 月 28 日
    @aero99 可以加我们技术服务群,告诉我们网址
    aero99
        115
    aero99  
       1 月 28 日
    @xjiang1982154112 #114 有没有 tg 交流群,实在不想用 wx
    Daimaogou
        116
    Daimaogou  
       1 月 28 日
    guduyuzhe
        117
    guduyuzhe  
       1 月 29 日
    欢迎使用我的邀请码,AL721LR5 双方都得 50 积分。邀请链接 https://www.mtywatch.com/login?invitation_code=AL721LR5
    SakuraPGH
        118
    SakuraPGH  
       1 月 29 日
    下了两个任务,监控竞品电商网站价格变化试试水,好用的话,可以推荐公司来用
    kill9
        119
    kill9  
       1 月 29 日
    @Daimaogou 这 2 个是啥
    YAYALUOYA
        120
    YAYALUOYA  
       1 月 29 日
    clawdbot 是不是能做这种事情?
    feaul
        121
    feaul  
       1 月 29 日
    好项目,支持
    ByteRan
        122
    ByteRan  
       1 月 29 日
    @YAYALUOYA 不是所有人都有钱和能力去搭建 clawdbot
    wang123456
        123
    wang123456  
       1 月 30 日
    大佬,你这个站是哪个系统?
    xjiang1982154112
        124
    xjiang1982154112  
    OP
    PRO
       1 月 31 日
    @wang123456 系统?
    wang123456
        125
    wang123456  
       2 月 1 日
    @xjiang1982154112 纯手搓的网站吗?还是有用啥程序,样式还挺好看的
    xjiang1982154112
        126
    xjiang1982154112  
    OP
    PRO
       2 月 2 日
    @wang123456 手搓的
    1bo
        127
    1bo  
       2 月 26 日 via Android
    淘宝店铺能监控吗?
    littlewing
        128
    littlewing  
       2 月 26 日
    可以帮忙监控 pdd 上的低价吗
    libyOne
        129
    libyOne  
       2 月 26 日
    政府网站你都干碰。。。我做了闲鱼扫货工具和游戏扫货工具,自动下单,ip 池切换,最后都放弃了,流程完全跑通,但是法律风险太大,赚不到多少钱,一旦被查就要去踩缝纫机的
    libyOne
        130
    libyOne  
       2 月 26 日
    实质性替代原则,参考最高检对爬虫行为的最新解释(没有形成实质性替代,很难入罪):
    @xjiang1982154112 爬虫的界定很模糊的,其实很多网站都有用户须知,不允许用于商业竞争活动等,也就是你爬数据可以,但你拿去卖就是不行,就算你只做工具,不模拟接口,不逆向,但你用了人家的数据跑不掉的,而且你限制频率也没用,量一大了还是类似 ddocs ,一些政府网站技术拉垮的一下子就被你搞崩了,直接拉去吃牢饭,不是开玩笑的
    spitfireuptown
        131
    spitfireuptown  
       2 月 26 日
    有验证码之类的做不了吧
    sn0wdr1am
        132
    sn0wdr1am  
       2 月 26 日
    友情提醒:
    爬虫有风险,爬虫需谨慎。

    有些网站不堪一击,经过你这一爬,你猜怎么着?崩了。

    想法很好,但是政策风险,法律风险不可小觑。
    webcape233
        133
    webcape233  
       2 月 26 日 via iPhone
    爬政府网站兄弟刑啊
    iloveios
        134
    iloveios  
       2 月 28 日 via iPhone
    要手机号
    luis1180
        135
    luis1180  
       2 月 28 日
    这网站已经挂了
    xjiang1982154112
        136
    xjiang1982154112  
    OP
    PRO
       2 月 28 日
    @iloveios 手机、邮箱、微信都可以注册
    xjiang1982154112
        137
    xjiang1982154112  
    OP
    PRO
       2 月 28 日
    @luis1180 正常的啊~~
    luis1180
        138
    luis1180  
       2 月 28 日
    @xjiang1982154112 刚刚发现用手机可以访问,我用电脑访问不了,显示 该网页无法正常运作
    d1g1tal0cean
        139
    d1g1tal0cean  
       9 天前 via iPhone
    再爬点就进去了
    1  2  
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1453 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 17:08 · PVG 01:08 · LAX 10:08 · JFK 13:08
    ♥ Do have faith in what you're doing.