作为一个曾经的爬虫爱好者,最讨厌写获取各种元素的正则表达式了,或者在一堆元素中筛选需要的内容。
ChatGPT 它来了,三句话搞定,第一句获取所有文章列表,第二句,获取一篇文章标题和内容,第三句设计数据库并写入。
魔法开始,图片无法正常显示用链接代替了。
第一句获取 http://chatnews.cn/ 所有文章列表
http://chatnews.cn/wp-content/uploads/2023/03/WechatIMG504.jpeg
获取一篇文章标题和内容
http://chatnews.cn/wp-content/uploads/2023/03/WechatIMG505.jpeg
设计数据库并写入 也不是完全没缺点,比如,机器人偶尔会挂掉,数据库读写部分,可以参考如下推文:
https://mp.weixin.qq.com/s/IYsGsnGTzvhn-97F1twKrg
整体表现,非常丝滑,强烈推荐。
1
herozzm 2023-03-23 21:22:42 +08:00
真正商业爬虫 都是尽量避免用正则,比如用 jquery 类方法抓取
|
2
rimworld 2023-03-23 21:23:35 +08:00
应该是他的资料里有爬取过这个网页的代码吧?要不然他怎么知道用选择器选择"h4 a"的
|
3
ila 2023-03-23 21:25:27 +08:00 via Android
哪三句话?
|
4
ospider 2023-03-23 21:28:06 +08:00 1
看了下楼主主页,全是推广帖子……
|
5
WinG 2023-03-23 21:31:55 +08:00
楼主的套利和量化战绩如何了?
|
6
1722332572 OP @ila 第一句获取所有文章列表,第二句,获取一篇文章标题和内容,第三句设计数据库并写入。
|
7
cherryas 2023-03-24 12:23:46 +08:00
恭喜你学会了爬虫,现在在是请爬取这个有 Akamai 的网站把
|