这是一个创建于 3369 天前的主题,其中的信息可能已经有所发展或是发生改变。
这是个关于数据采集的问题,目标是传进一个地址自动从里边抓取出文章列表而不需要额外的配置或者书写额外的规则,请问有这方面的文章或者开源项目或者解决思路吗?
-
现在我的解决思路是:
1 、把页面解析为 DOM 树;
2 、递归判断每个节点是否存在相似的子树,存在则认为是列表。
-
然而在“相似”这一问题上,遇上了一些问题,起初,我是根据 XPATH 或者 CSSPATH 递归标记每棵树,譬如对于:
<div><div>TITLE<div><div></div><a></a></div>
可以标记为(div (div ((text )(div )))(a ))这样的玩意(栗子)
但是某些时候,列表中的某些项目可能存在一些干扰,譬如 strong 标签,譬如手滑出来的、不影响显示外观的多余标签
-
求教
1 条回复 • 2015-08-25 16:38:45 +08:00
|
|
1
ZHenJ 2015-08-25 16:38:45 +08:00
Beautiful Soup ?
|