怎样识别出一个包含列表的页面里边哪一些是列表？

This topic created in 3963 days ago, the information mentioned may be changed or developed.

这是个关于数据采集的问题，目标是传进一个地址自动从里边抓取出文章列表而不需要额外的配置或者书写额外的规则，请问有这方面的文章或者开源项目或者解决思路吗？
-
现在我的解决思路是：
1 、把页面解析为 DOM 树；
2 、递归判断每个节点是否存在相似的子树，存在则认为是列表。
-
然而在“相似”这一问题上，遇上了一些问题，起初，我是根据 XPATH 或者 CSSPATH 递归标记每棵树，譬如对于：
<div><div>TITLE<div><div></div><a></a></div>
可以标记为(div (div ((text )(div )))(a ))这样的玩意（栗子）
但是某些时候，列表中的某些项目可能存在一些干扰，譬如 strong 标签，譬如手滑出来的、不影响显示外观的多余标签
-
求教

div

列表

譬如

标记

1 replies • 2015-08-25 16:38:45 +08:00

ZHenJ

Aug 25, 2015

Beautiful Soup ？