怎么根据标题进行自动化分类

This topic created in 4404 days ago, the information mentioned may be changed or developed.

有没有现成可用的库? 任何语言都可以,不知道搜索啥关键词比较好
比如:
"Esprit 埃斯普利特 ED0D30M 男式舒适纯棉直筒休闲牛仔裤 199元包邮"
分类到
"服装"类别

"Mentholatum 曼秀雷敦肌研极润保湿化妆水170ml+极润眼霜3g+弹力肌眼膜2片*1袋/4ml 114元（满199-100 低至64元）"
分类到
"美妆"类别

分类

类别

16 replies • 2014-10-13 12:34:23 +08:00

zoowii

May 12, 2014

出个注意,没试过.

分词后分别去淘宝搜索,然后看推荐类别什么的. 然后自然就分好类了

当然,如果你自己训练也是可以的,但是那训练数据的获取一般人应该弄不到

chlx

May 12, 2014

太多了。例如Python有Scikit-learn,Gensim 等等

chlx

May 12, 2014

@zoowii 可以手工标注；看楼主的描述，不需要标注很多效果应该很好

qsmoon

May 12, 2014

@chlx
@zoowii
感谢已发送,睡觉先,明天白天研究下~~

shoumu

May 12, 2014

@chlx 如果楼主的类别非常多的话还是需要很多数据吧。楼主这个好像还没有确定类别。。

akfish

May 12, 2014

仅仅是分类的话，比较容易，机器学习而已。
分词，人肉标记足够样本喂分类器。

淘宝的做法复杂得多，记得还在学校时听过淘宝的一场校招宣讲，他们光是分词算法就非常细，不是通用的中文分词。当然淘宝的需求要高得多。

akfish

May 12, 2014

关于样本标记，可以半人肉。
有的关键字对于分类的作用是决定性的，比如品牌、产品名。
这样你就可以通过rule based的方法生成大量正确的训练样本。

chlx

May 12, 2014

@shoumu 忘了说分词。分词效果较好的有中科院的，复旦的包，好像都有Python的封装。

aszxqw

May 12, 2014

楼主想的太美了。
没那么好的事情。

ultimate010

May 13, 2014 via Android

nlp里面的东西，文本分类。先训练分类器，在使用。简单点有大量已经分好类的数据，给机器学习，机器学会了，再去分类未知类别数据。libsvm，liblinear。还有一个商品标题分类的库叫libshorttext什么的，名字我记不太清了。前段时间用过，效果还好，但前提你得有大量分号类的数据。手机打字太累了

ultimate010

May 13, 2014 via Android

@chlx 亲测中科院那个号称全球第一的分词不眨地，不如我导师写的分词（也收费），开源的结巴分词（@aszxqw 的c++版本）可以试试，我猜想中科院主要是公开版本的词库太搓，可能付费就好了。

YouXia

May 13, 2014 via Android

@aszxqw 来教我分词，分类，聚类吧。

qsmoon

May 14, 2014

@chlx 貌似工程量比较大啊分词+分类 ? 我这个类别其实不多的7,8个吧,但是每天有1000条左右的新数据产生,怎么整?

chlx

May 14, 2014

@qsmoon ju.venlab gmail

aszxqw

May 17, 2014

@ultimate010 今天才看到回复，谢谢支持。

@YouXia 少年不要黑我。分词我觉得看jieba分词的源码是最简单直接的学习方式了（python的代码好看好懂）。
聚类的话我最近听说simhash用来聚类蛮有意思的，你可以试试。

gavinzgz

Oct 13, 2014

@ultimate010 亲测libshorttext对标题效果不错，具体的使用我写了一篇： http://guoze.me/2014/09/25/libshorttext-introduction/