目标:
爬取「中国质量新闻网」上多个网页内的抽查报告,保存本地为 Excel 文件,然后汇总、整理。
比较坑的是,不同地方的机构、不同年份发布的抽查报告的样式略有不同。我不会编程,只有找现成的工具,于是想了几个方案:
方案一:
用爬取工具为不同排列方式的抽查报告建立不同的规则,缺点是可能要建很多规则,工作量可能比较大。
方案二:
用爬取工具建一个能够爬取大多数抽查报告所有内容的规则,全部 URL 放进去运行,最后在 EXCEL 里面整理。
方案三
用爬取工具自动识别并抓取网页上的表格,然后合并处理。
结果:
import.io:经常漏抓前面几行,而且没有规律可循。
八爪鱼:不少表格抓取不全,某些类型的「数据」无法正常生成字段,有的一列被分为多列。
爬山虎:不少表格抓取不全,有的一列被分为多列。
Excel 的「自网站」功能:不能批量添加。
Google 表格:还未尝试,不知道有没有批量操作的插件。
所以请教一下各位,还有啥办法,或者说要学习什么工具 /方法? XPath ?
例如抓取这些链接内的表格: