低代码,高效而简洁;支持正则表达式,复杂的场景也能很容易提取数据。
使用 YAML 来配置解析,可高效管理输出 JSON 结构
以下是最简单的解析形态,有个更复杂 SERP 例子在 git 中可作为学习参考。
tree:
nodes:
title:
selector: title
body:
selector: body
attr: html
to_markdown: true
<html lang="en">
<head>
<title>Cheerio Tree</title>
</head>
<body>
<h1>Cheerio Tree</h1>
<main>
<h2>What is Cheerio Tree?</h2>
<p><b>Cheerio Tree</b> is a powerful utility built on <b>Cheerio</b>, designed for efficient DOM parsing. It enables rapid conversion of HTML data into JSON format. When paired with YAML, it provides an intuitive and streamlined approach to data handling and transformation.</p>
</main>
</body>
</html>
{
"title":"Cheerio Tree",
"body":"Cheerio Tree\n============\n\nWhat is Cheerio Tree?\n---------------------\n\n**Cheerio Tree** is a powerful utility built on **Cheerio**, designed for efficient DOM parsing. It enables rapid conversion of HTML data into JSON format. When paired with YAML, it provides an intuitive and streamlined approach to data handling and transformation."
}
帖子要沉了,社区玩采集的不多?
你们都是怎么写代码和维护的;
现在我撸数据只需要关注yaml, Git 中有Google的SERP片段, 复杂一点的需求用例。
详细文档需要时间,陆续会出一些 API scraper 采集规则,YAML配置例子更直观。
1
Amose2024 126 天前
顶一个。不知道与 beautifulSoup 有何不同?
|
2
sead OP @Amose2024 cheerio 和 beautifulSoup 解决的需求都差不多,但是多数场景都是一些重复的数据处理逻辑,维护起来也是比较头大;目前用这个撸 serp 暂时还没碰到解决不了的.
https://serpchecking.com/ 完全基于 Cheerio-Tree 撸 |
3
kiroli 125 天前
用 cheerio 指哪打哪,感觉更直接些
|
4
sead OP @kiroli 写原生? 可能是不会设计代码结构,数据复杂时维护起来很痛苦。。之前用 python 撸了一个 amazon asin 铲子,数据过于复杂,维护起来头大。 基于痛点才撸了这个。
|
5
good1uck 125 天前
没 DEMO 看不懂
|
6
sead OP @good1uck 文档和 demo 后续会更新,近几天基于这个会发布一个 express api 辅助开发,同时可以用于生产环境的 api ,会有更新详细的 demo 。
|
7
sead OP @good1uck https://github.com/serping/express-scraper DEMO 发布了,目前有三个 API 例子。
这个是 expressjs api , 扩展非常方便 |
8
sead OP @Amose2024 https://github.com/serping/express-scraper 基于轮子的 API 应用版本,线上部署了。
其中 SERP 的较为复杂,不过按树结构方法解析,应该还是比较容易看懂的。 |
9
sead OP @kiroli https://github.com/serping/express-scraper 可以参考下这种方式怎样?里面有很直观的例子。
|
10
InsideSeed 120 天前
已 star ,看着挺不错的,但是目前似乎没有完整的文档
|
11
sead OP @InsideSeed 有一个 SVG 结构图,后续我会发布文档和一些常见场景的用法
|