This topic created in 3055 days ago, the information mentioned may be changed or developed.

目标：

爬取「中国质量新闻网」上多个网页内的抽查报告，保存本地为 Excel 文件，然后汇总、整理。

比较坑的是，不同地方的机构、不同年份发布的抽查报告的样式略有不同。我不会编程，只有找现成的工具，于是想了几个方案：

方案一：

用爬取工具为不同排列方式的抽查报告建立不同的规则，缺点是可能要建很多规则，工作量可能比较大。

用爬取工具建一个能够爬取大多数抽查报告所有内容的规则，全部 URL 放进去运行，最后在 EXCEL 里面整理。

用爬取工具自动识别并抓取网页上的表格，然后合并处理。

import.io：经常漏抓前面几行，而且没有规律可循。

八爪鱼：不少表格抓取不全，某些类型的「数据」无法正常生成字段，有的一列被分为多列。

爬山虎：不少表格抓取不全，有的一列被分为多列。

Excel 的「自网站」功能：不能批量添加。

Google 表格：还未尝试，不知道有没有批量操作的插件。

所以请教一下各位，还有啥办法，或者说要学习什么工具 /方法？ XPath ？

例如抓取这些链接内的表格：

5 replies • 2018-01-10 15:50:43 +08:00

songz

Jan 10, 2018

批量抓<table>的內容，然後粘貼到 excel，完美

POPOEVER

Jan 10, 2018

我都是 js 脚本直接 curl 网页过滤 table 出来，如果要 fs 权限的话用 electron 打包一下从 node 走就有权限了

bazingaterry

Jan 10, 2018 via iPhone

想要自動識別不同網頁的表格還自動提取字段感覺有難度的，建議不同網頁自己寫一套規則，學一下 css selector 就可以做到了。

exp1ore

Jan 10, 2018

神箭手试试看

shrugged

Jan 10, 2018