先说下背景: 比较小的数据量,文章结构比较简单,假设就只有 title, content 两个字段。
这方面有比较好用,简单的的库推荐嘛?
可以是普通推荐算法,也可以是机器学习相关。
主要以简单,好使为目的。
1
czfy 2022-06-30 15:47:52 +08:00 via Android
数据量小是多小
|
2
LeeReamond 2022-06-30 16:34:18 +08:00
无标签分类可能比较困难,如果你要摘要文章信息为几个 tag 的话倒是无数方案,比如据说 v 站用的是 tfidf 。你要无标签自动聚类的话,可以想到一些可能的应用场景,比如我的网页收藏夹里东西太多了,自动帮忙把技术类和非技术类分开。不过目前似乎没怎么看到人做类似的产品,所以也许是技术上有些困难,难以取得好效果
|
4
colatea 2022-06-30 17:11:50 +08:00
https://github.com/gezimonkey/Keras_Multi_Label_TextClassfication
我搞的,算法,工具都是别人的,我只是拿来装在一起,你可以试试 |
5
tfdetang 2022-06-30 17:18:27 +08:00
不知道分类了以后要做什么? 可以看看 LDA 主题模型吧。
|
6
czfy 2022-06-30 17:43:23 +08:00 via Android
500M 感觉不少了,我目前只找到两个老库 op 先看看吧,按道理如果能用 BERT 效果会更好
https://github.com/isnowfy/snownlp https://github.com/hankcs/pyhanlp |