爬取了某大而全论坛的公开帖子,一共爬了一百多万条,因为该论坛下有详细的分类目录感觉用来做 nlp 入门学习数据很合适。
起步想跑个 tfidf 看看为每个帖子自动加关键字标签的效果怎么样。遇到的问题是,如果用 python 的 sklearn 库实现的话,似乎需要把所有帖子的内容一股脑装进内存里才能算,不光内存爆炸,而且算的巨慢,跑了几次都是卡住几个小时没反应,后来无奈只能关了。
想问一下类似这种大文本有办法分批处理吗?简单想了一下问题在于,比如所有文章里所有出现的词语的总的表是随着不断加入新的语句而不断变化的,不存在说算完 A 贴的数据后该数据就不会再变了这么一个说法,所以感觉似乎做不到分段计算。如果不能分段计算的话,类似 V2EX 这种,似乎听站长说也是 tfidf ,这么大的数据量又是怎么算出来的呢。