1
qiayue 2020-03-31 12:41:44 +08:00
因为这些网站是十年前开发的,没必要去重构改个编码就为了让爬虫好爬。
另外,搞不定编码的爬虫,怕是还没入门吧 |
3
b821025551b 2020-03-31 14:19:10 +08:00 2
@crella #2 至少不会吐槽编码
|
4
westoy 2020-03-31 14:27:45 +08:00 1
固定的网站可以写死编码
不是的话 先从 http 头 content-type 里取编码, 没有就去 html 里找 meta content-type 标签取编码 没有 or 用得到的编码解码出错, 就调用 chardet 、enca 之类的库猜编码 |
5
tigerstudent 2020-03-31 14:33:13 +08:00 via Android
哪有那么多百万并发的站
4 楼说得对。 |
7
jugelizi 2020-03-31 15:21:27 +08:00 via iPhone
我也觉得 做图像识别 亚洲人还好
非拉的就不行 人类不能都黄皮肤吗 |
8
crella OP @Gakho 其实并不是什么大事,一时分不清网页编码而已。
我正在试着用 ruby 的中文分词插件,rmmseg-cpp 返回的中文文本可以打印出正确的中文,但是既不是 ascii-8bit,也不是 gbk 或 utf-8,这个更加坑爹。不过想想也是七八年前的库了,没人维护也就算了。 目前在用 jieba_rb,感觉没什么大坑。 nlpir 的 euby 插件的 win 版本与 ruby2.6 的 fiddler 不兼容。 |
9
qq292382270 2020-03-31 15:34:36 +08:00
discuz 论坛程序,十几年了,还有 gbk 版本.
|