打算构建一个无偏语料库,因此需要爬取各行各业相关的网站,想问一下大家知道哪些主要内容是文本的网站。 目前收集到的网站有大概以下几个分类
综合新闻站
- 163
- sina
- china
- people
垂直 /非垂直论坛
- autohome
- tiexue
- xbiao
- douban
- tianya
- tieba
- newsmth
问答站
- zhihu
媒体
- engadget
- ifanr
- guokr
财经
- xueqiu
- caixin
医学
- dxy
影视
- zimuzu
- tvmap
- juqingba
小说
- qidian
教科书
- readers365
- eywedu
这里并没有列全,目前在抓的有 60 个网站左右,每天能获取 300K 个页面,单机。想问问大家有没有什么别的类目、行业、领域以及各分类下的文字类网站可供补充?无所谓内容质量好坏。