1
zoowii 2014-05-12 22:37:29 +08:00 1
出个注意,没试过.
分词后分别去淘宝搜索,然后看推荐类别什么的. 然后自然就分好类了 当然,如果你自己训练也是可以的,但是那训练数据的获取一般人应该弄不到 |
2
chlx 2014-05-12 22:38:12 +08:00
太多了。例如Python有Scikit-learn,Gensim 等等
|
6
akfish 2014-05-12 22:44:53 +08:00
仅仅是分类的话,比较容易,机器学习而已。
分词,人肉标记足够样本喂分类器。 淘宝的做法复杂得多,记得还在学校时听过淘宝的一场校招宣讲,他们光是分词算法就非常细,不是通用的中文分词。当然淘宝的需求要高得多。 |
7
akfish 2014-05-12 22:47:29 +08:00
关于样本标记,可以半人肉。
有的关键字对于分类的作用是决定性的,比如品牌、产品名。 这样你就可以通过rule based的方法生成大量正确的训练样本。 |
9
aszxqw 2014-05-12 23:12:44 +08:00
楼主想的太美了。
没那么好的事情。 |
10
ultimate010 2014-05-13 01:28:45 +08:00 via Android
nlp里面的东西,文本分类。先训练分类器,在使用。简单点有大量已经分好类的数据,给机器学习,机器学会了,再去分类未知类别数据。libsvm,liblinear。还有一个商品标题分类的库叫libshorttext什么的,名字我记不太清了。前段时间用过,效果还好,但前提你得有大量分号类的数据。手机打字太累了
|
11
ultimate010 2014-05-13 01:33:41 +08:00 via Android 1
@chlx 亲测中科院那个号称全球第一的分词不眨地,不如我导师写的分词(也收费),开源的结巴分词(@aszxqw 的c++版本)可以试试,我猜想中科院主要是公开版本的词库太搓,可能付费就好了。
|
13
qsmoon OP @chlx 貌似工程量比较大啊 分词+分类 ? 我这个类别其实不多的7,8个吧,但是每天有1000条左右的新数据产生,怎么整?
|
15
aszxqw 2014-05-17 14:54:41 +08:00
@ultimate010 今天才看到回复,谢谢支持。
@YouXia 少年不要黑我。分词我觉得看jieba分词的源码是最简单直接的学习方式了(python的代码好看好懂)。 聚类的话我最近听说simhash用来聚类蛮有意思的,你可以试试。 |
16
gavinzgz 2014-10-13 12:34:23 +08:00 1
@ultimate010 亲测libshorttext对标题效果不错,具体的使用我写了一篇: http://guoze.me/2014/09/25/libshorttext-introduction/
|