现在遇到的问题是,自己写 xpath 需要写很多,每个网站写不同的,不太现实。
自定义正则抽取数据,写的不好会遇到死循环等奇葩问题,请教下各位有没有比较好的这方面现成的库实现
1
snappyone OP 如果有其他语言的较好实现,也可以考虑包装成对应 service 进行调用,每秒大概几百次调用这种频率
|
2
Hyseen 2019-09-15 10:11:33 +08:00 via iPhone
jsoup
|
3
socradi 2019-09-15 10:12:53 +08:00 via iPhone
可以试一下 jsoup
|
4
winterbells 2019-09-15 10:18:59 +08:00 via Android
前几天那个帖子,根据一篇论文写的实现,抽取标题和内容
你搜一下看看 |
5
Belmode 2019-09-15 10:23:40 +08:00
参考 webmaigic,作者基于 httpclient、jsoup 实现一套 xsoup,并且抽象了一个爬虫理论,自己基本上定制 Pipeline 和 Processor 就好,非常易用。
链接: http://webmagic.io/docs/zh/ |
6
Belmode 2019-09-15 10:25:26 +08:00
@Belmode 是 webmagic,打错了。目前已经非常完善,基本功能充足。只是,对 xpath 不是完全支持,参考文档。由于版本稳定,作者在 0.7.3 版本时,放弃了维护了。
|
7
snappyone OP @Belmode 目前我就是基于这个二次开发的,保存了网页原始数据,现在对原始数据做二次处理想看看有没有现成一点的库
|
8
polythene 2019-09-15 10:37:50 +08:00 1
可以看看我的这篇给网页中每个 DOM 元素打分的方法: https://github.com/polyrabbit/hacker-news-digest/blob/master/%5Btutorial%5D%20How-to-extract-main-content-from-web-pages-using-Machine-Learning.ipynb,虽然是用 Python 写的,但原理都是类似的。
我用它来提取 Hacker News 各个网站的正文,准确率很高。 |
10
knightdf 2019-09-16 09:01:03 +08:00
python 有一个 dragnet 很不错
|
11
szandy6 2019-09-16 09:09:14 +08:00
jsoup,像 jQuery 一样操作 DOM
|
12
wysnylc 2019-09-16 10:20:07 +08:00
如果你是 java 的建议使用 XXL-CRAWLER,一句话创建爬虫
|