案例地址
https://demo.rss404.com/?url=https%3A%2F%2Fwww.v2ex.com
Demo 只提取前 20 个数据,加了请求锁,会比较慢。
你可以尝试任何正常的列表页面(肉眼可以轻易判断主列表)。
背景
- 搞了一个自动识别网页列表的算法,想把它应用起来。有开源的,但是效果不理想。
- 自动解析内容页的开源框架已经很多了,后期都可以集成起来。
原理
- selenium 加载网页
- 机器学习视觉分类+NLP 分析解析列表页面的列表项,并提取出列表页的每一项
讨论目的
- 这个项目还有哪些想象力?出了 RSS 之外?
- 是否有市场?
- 你作为用户想要什么?
