用 huginn 爬取新浪微博,原来好好的,快多半年后,突然发现爬取不到任何东西。检查发现竟然是被新浪微博封了,但是奇怪的是,就 huginn 不行,而普通的下载工具,甚至 autoit 等脚本,随随便便就能把新浪微博爬取下来,太奇怪了。比如下面的链接: https://s.weibo.com/weibo?q=%E4%B8%AD%E5%9B%BD%E8%87%AA%E5%BC%BA&typeall=1&suball=1×cope=custom:2021-08-01:&Refer=g&scope=ori 用 huginn 不行,其他的下载工具随随便便都可以。 换了其他地方的机器,电脑和 ip 不同,huginn 照样无法正常爬取。 huginn 里面设置了 user-agent 也不行,怪了,huginn 有什么特征能够被识别吗
1
terryxuwen OP 补充一下,我是不登录爬取,不存在用户名被封的情况
|
2
ch2 2021-10-28 22:19:55 +08:00
@terryxuwen #1 其实你登录一个小号,即使被封了也反而比不登录权限要高
|
3
malagebidi 2021-10-28 22:49:44 +08:00
试了下,Phantom Js Cloud Agent 渲染不出微博的页面了
|
4
terryxuwen OP @ch2 匿名能看到微博的搜索结果呀。 现在情况是不知道为什么 普通下载脚本能下到内容页,而 huginn 不行,唉
|
5
terryxuwen OP @malagebidi 你试试普通的脚本下载,应该能下载看到网页内容。
|
6
foxben 2022-11-23 14:55:17 +08:00 via Android
@malagebidi 我发现很多网站 phantomjs 很多网站都渲染不出
|