爬取斗鱼网站 lol 分区时，获取的网页数据是经过压缩的，尝试了几种解压方法后，得到时大量数字的无用数据。

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
url = 'https://www.douyu.com/g_LOL'

req = request.Request(url, headers=headers)
r = request.urlopen(req)
buff = BytesIO(r.read())
f = gzip.GzipFile(fileobj=buff)
htmls = f.read().decode('utf-8')

3.结果爬取的网页中间出现了大量的数字乱码，例如：

47 14.4 14.4s-6.447 14.4-14.4 14.4z"/><path d="M20.331 18.069c0.625 0.625 0.625 1.638 0 2.263s-1.638 0.625-2.

并且，在调试到

req = request.Request(url, headers=headers)

时，弹出<string>文档，显示:</string>

 无法加载源“<string>”: Source unavailable。

4.我认为可能是对爬来的数据解压方式不对，多谢帮忙！

6 replies • 2019-07-26 14:12:48 +08:00

baxtergu

Jul 26, 2019

这个是 svg，多用于图标

LengthMin

Jul 26, 2019

简单的看了看。
1. 这些 path 都是 svg
2. 可以试试用 beautifulsoup

yuzo555

Jul 26, 2019

数字乱码 XD

colorfulberry

Jul 26, 2019

react 写的，有没有加后端渲染，拿不了东西。

learnshare

Jul 26, 2019

<path d=""> 这是 SVG，d 是绘图指令

kygowl77

Jul 26, 2019

是 svg 网页矢量图可以自己写个 html 把数据放进去自己用浏览器打开看看