URL + 一句话,自动监控网页内容更新
猫头鹰 AI mtywatch.com
超简单,三步搞定
输入要监控的 URL
输入你想关心的数据说明
点击自动分析,创建监控任务
个人日常使用足够了
以上是标准产品介绍,接下来聊聊我的想法。
20 多年前,我刚刚成为程序员,对爬虫技术就很感兴趣,一直觉得爬虫是大有前途的方向。但是我感兴趣的不是大量抓取数据、不是毫秒响应抢茅台~ 而是很多做小生意的人、学生、创业者,他们需要关注一些网站:同行、供应商、政府部门、电商平台、学术论坛等等,我见过他们花几百几千找人写爬虫,用几天就不能用了;也见过他们花时间学爬虫工具,学了几天放弃了。
要满足他们的需求不难,熟练的爬虫工程师可能只要花 1 个小时就能写好代码。难得是这些需求人群过于零散、网页类型千奇百怪。我尝试过很多方法,也尝试过做一个更友好的图形化爬虫配置工具。始终感觉是技术人员的自嗨行为,这样的工具,做的再友好,仍然不是普通人学的会的。
23 年大模型刚出现的时候,重新唤起了我做这件事情的心思,但还是实验失败了; 24 年不死心又实验了一次,能力勉强能落地,但是 tokens 的成本不足以形成商业产品;直到今年,大模型在编程领域的神奇能力,解决我最后一块拼图。
心心念了 20 年的产品,终于把她做出来了。
以上是我的碎碎念,接下来我要寻求帮助了!
技术路线我们已经实验成功了,虽然产品刚上线,还需时间打磨,但我相信我们的技术团队能把她做好,也希望大家可以提出宝贵意见,耐心等待我们把她雕刻完美。
我粗浅的理解为,原来饱受爬虫配置工具荼毒的人群,就是我们的客户;那些做小生意的人、学生、创业者,也是我们的客户;我只要把一句话监控网页这个核心能力做好了,应该有我们团队一口汤喝!
如我所说,这很粗浅,我需要大家的看法,我们需要鼓励,更需要批评!!
额,花钱打广告还是会的;嗯,也只会一半:花钱 -_-!
我都不知道应该如何发问,遇到人只能说一句:我要怎么做?你可以从头开始教我的 -_-!
1
shouh 22 小时 21 分钟前
要手机注册..算了
|
2
doubleweiwei 22 小时 15 分钟前
挺好,轻量化。不错的尝试。只是商业舆情现在要求越来越高,譬如全网数据的要求,这里面包括海量数据,而且是通过关键词(短尾词+Ai 联想词)来确定数据范围的。
|
3
zhangk23 20 小时 14 分钟前
要手机注册的话有点太麻烦了
|
4
billccn 20 小时 0 分钟前 我之前副业尝试做过这个方向,最后觉得拿出来卖法律问题搞不定,就只有自己用了。
其实主要问题是 AI 算力即使是自己搭建也非常的昂贵。如果要收用户钱那其实很难推广开,因为绝大多数的用户时间不值钱,真正愿意交钱的不少属于灰产,就带来了我说的法律问题。 |
5
dearmymy 19 小时 24 分钟前
兄弟这玩意是法律问题,现阶段对方用你程序干任何坏事,你必进去,得不偿失的。
|
6
Blanke 17 小时 11 分钟前 via Android
n 年前就想做类似的东西了,xx 更新了通知我,当时想的是普通用户有上手门槛。现在 ai 出来后确实不需要手动写 xpath 或类似解析的代码了。但是几个问题,怎么处理反爬,国内大厂反爬很严重的,比如 贴吧 微博 淘宝 微信公众号等,还有怎么分钟没有网页的信息源,比如只有 app 没有网页的产品,逆向 api 吗,这种手动维护量很大。
|
7
lambs13 16 小时 38 分钟前 via iPhone
以前有个扩展,监控网页变化的,只能监控某个关键词,不够智能,试试这个
|
8
lswlray 15 小时 43 分钟前 我还以为又有新人作品,仔细一看,还是昨天看过的。
那我就从我自己的商业需求角度来说说吧: 1 、合规:产品不能随意提供使用,必须要走商务合同形式,在合同中明确约定用途、以及由购买方承担法律责任。 2 、产品建议: 能够解决各种常见类型的登录验证码,能够支持一定程度的 IP 池,能够支持简单的脚本和变量,能够支持采集数据导出,能够支持 API 集成 3 、推广:以企业应用为对象,向企业信息化系统商推销、成为合作伙伴、销售给他们的客户。 |
9
xjiang1982154112 OP |
10
xjiang1982154112 OP @lswlray /抱拳/抱拳 多谢建议,您建议的产品功能正在开发中
|
11
BingoW 15 小时 9 分钟前 挺好的创业思路,并落地。但是法律风险是一方面,另一方面有一些成熟的工具,通过配置也能做到类似的程度,比如八爪鱼、本身就有智能识别网页+rpa 发送通知的功能。当然目前还是有人有公司急需数据会去找人写爬虫代码。我后面会使用看看你的产品,如果它能采集亚马逊,那我觉得这个产品相当能打。
|
12
MEIerer 14 小时 39 分钟前
为什么要手机注册?我的数据采集产品直接免注册了。
|
13
dacapoday 14 小时 24 分钟前
搞爬虫的真是一茬又一茬,抓了一批,又冒出一批。没背景没背书的,可能钱还没到账,就已经蹲看守所了。
|
14
xjiang1982154112 OP @dacapoday 合理合规使用,没问题的。
最高检,2025 年 11 月 29 号 刚发的解释:厘定边界合理规制网络爬虫行为 https://www.spp.gov.cn//llyj/202511/t20251129_712355.shtml |
15
xjiang1982154112 OP @MEIerer 马上改进
|
16
flyme2them00n 9 小时 29 分钟前
@BingoW 我试了下监控某个分类的新品榜,其它的没有深入的去搞了
|
17
zhangk23 48 分钟前 @xjiang1982154112 酷!
|
18
xjiang1982154112 OP @Blanke 感谢兄弟的建议
1 、反爬确实是一个核心问题,我们的原则是:首先控制频率(最低 15 分钟一次),不会造成破坏性攻击。然后,我们这个产品是做提醒服务的,不做内容搬运,很难触碰到“实质性替代”原则,如果还出现验证码这样的拦截手段,我们是打算不处理的。 2 、app 这个场景,我们还在研究实验,目前的技术路线是打算通过真机或虚机环境,利用视觉或者 ADB 提取数据。不做逆向 api 实质性替代原则,参考最高检对爬虫行为的最新解释(没有形成实质性替代,很难入罪): 厘定边界合理规制网络爬虫行为 https://www.spp.gov.cn//llyj/202511/t20251129_712355.shtml |