打算构建一个无偏语料库,因此需要爬取各行各业相关的网站,想问一下大家知道哪些主要内容是文本的网站。 目前收集到的网站有大概以下几个分类
这里并没有列全,目前在抓的有 60 个网站左右,每天能获取 300K 个页面,单机。想问问大家有没有什么别的类目、行业、领域以及各分类下的文字类网站可供补充?无所谓内容质量好坏。
1
mushan099 2018 年 4 月 25 日 via iPhone
其他类别不知道,影视那一栏我倒是了解不少(^-^)/
|
2
rock_cloud OP @mushan099 来几个例子?
|
3
fstab 2018 年 4 月 25 日 via Android @rock_cloud t66y sixinsix 91 avgle 大哥只能帮你这么多了。
|
4
jiangnanyanyu 2018 年 4 月 25 日 via Android
我来一个吧,javbus,javlib
|
5
ob 2018 年 4 月 25 日 via Android
cnbeta
|
6
aice114 2018 年 4 月 25 日 via Android
v2ex
|
8
huluhulu 2018 年 4 月 25 日 via iPhone
不是 1024 最值得吗?
|
9
jasonyang9 2018 年 4 月 25 日
nytimes
arstechnica slashdot |
10
x86 2018 年 4 月 25 日
avmoo
|
11
fengyj 2018 年 4 月 25 日 via Android
影视竟然没有 douban
|
12
chroming 2018 年 4 月 25 日 via Android
单机爬这么多是用了代理池?
|
13
logOo 2018 年 4 月 25 日
pxxnhub
|
14
rock_cloud OP @huiyifyj 有,在论坛分类里,抓全站
|
15
rock_cloud OP @chroming 没有代理池,因为站点多,所以每个站慢慢爬,也不是问题
|
16
rock_cloud OP @aice114 我居然忘了 V 站,话说 V 站是不是有访问频次限制?
|
17
akira 2018 年 4 月 25 日
3l 老司机
|
18
mhycy 2018 年 4 月 25 日
|
19
torbrowserbridge 2018 年 4 月 25 日
91
|
20
yense 2018 年 4 月 25 日
煎蛋站长瑟瑟发抖...
|
21
rock_cloud OP @yense jandan 已加入豪华午餐,放心,速度非常慢,大约一分钟一个请求,不会占用很多流量的
|
22
rock_cloud OP @yense 额。。错了,应该是 20 秒一个请求。。。
|
23
greatghoul 2018 年 4 月 25 日 via Android
pornhub
|
25
F1024 2018 年 4 月 25 日
91 哈哈哈哈
|
26
yunye 2018 年 4 月 25 日 via Android
抓谷歌比较划算,抓一个站啥都有了
|
27
rock_cloud OP @yunye Google 反爬做得好,不好抓,费时费力
|