最近在做毕设,然后毕设题目大概是:基于文本的多情感分类,重点就是这个多字。
按照要求,大概要分四种情感。但是百度了一通,发现现在做的,好像都是情感二分:积极 or 消极,很难进行更多情感的分类。而且,现在进行分类的思路也就是是 NLP 相关的东西
所以,想问下懂的 V2er,如果有做过这方面的大佬,我想请教一下,该用什么思路去完成这种多情感的分类?我只需要思路,不需要具体实现,或者有参考的文献更好,谢谢!
1
fairyto2 2018-12-02 00:03:40 +08:00 via iPhone 1
无监督的话即使是二分类准确率也不高
|
2
txy3000 2018-12-02 00:11:56 +08:00 via Android
数据集先跑一种情绪模型二分 负集部分再跑其他类型情绪模型做二分。。
如果样本可以复合多种情绪标签,正集也跑一次。。 multilable classification deep learning Google 一下应该有你需要的吧 |
3
diggerdu 2018-12-02 00:17:12 +08:00
mutli tasking learning / multi instance learning
随便搜了下 找到一篇 ijcai2018 的文章 Text Emotion Distribution Learning via Multi-Task Convolutional Neural Network 仅供参考 |
4
Xs0ul 2018-12-02 01:40:29 +08:00 via Android
模型完全不是问题,二分类和多类并不算多大的差别。关键是你要怎么去找到对应的数据
|
5
Xs0ul 2018-12-02 01:49:28 +08:00 via Android
推荐一个论文和思路:DepecheMood
大致就是很多新闻之后会有 7、8 个按钮,震惊之类的,就直接把这些作为标签。论文里用的网站 www.rappler.com |
6
bugcoder 2018-12-02 01:57:04 +08:00
可以做 emotion analysis 啊。
six basic emotions: happiness, sadness, anger, fear, surprise, and disgust. 做学问请不要用百度。找到你要做的题目的对应准确英文,然后用 google scholar 搜索。 |
7
bugcoder 2018-12-02 02:07:09 +08:00
https://pdfs.semanticscholar.org/12f8/11a52e5a786f556598c99c560ee3539ad684.pdf
这个地方列举了不少 sentiment analysis tasks,可以用来开拓思路。 |
8
kingcos 2018-12-02 03:15:45 +08:00 via iPhone
提个外行的问题,人要是假装,比如说假笑,怎么区分呢……
|
9
dartabe 2018-12-02 04:05:04 +08:00
就像上面说的 多次二分
比如 兴奋 非兴奋 开心 不开心 悲伤 不悲伤 名字我有点忘了 好像是逻辑回归的多分类拓展 |
10
dartabe 2018-12-02 04:06:30 +08:00
输出套一个 softmax 好像也是多分类吧
|
11
Kilerd 2018-12-02 07:12:15 +08:00 via iPhone
我的毕业也是情感多分类,同 6 楼那样,一开始想做六个分类,但是准确度奇差()
|
12
Kilerd 2018-12-02 07:13:29 +08:00 via iPhone
可能是我水平问题,后来改成了三分类,积极 中立,消极。效果还可以,80 的正确率,勉强能当毕设用
|
13
Kilerd 2018-12-02 07:16:13 +08:00 via iPhone
在做六分类的时候,我发现 marker 的个人主观性占了很大的评判比例,happiness surprise 太难分了。 对了,我用的数据是自己爬的豆瓣电影评论
|
14
Kilerd 2018-12-02 07:18:56 +08:00 via iPhone
@kingcos 正常的语料,不用 deep learning,只用统计法都可以判出来是 negative 的
|
15
itskingname 2018-12-02 09:08:13 +08:00 via iPhone
我司目前已经有成熟可用的九情感分类了。
|
16
swordspoet 2018-12-02 09:21:22 +08:00 via iPhone
不知道你的数据集有没有标签,数据质量如何,如果上述两个问题的答案是肯定的,这个问题是比较简单的。传统的机器学习和深度学习都比较擅长解决这类问题,数据是中文的,你还要分一分词,如果是英文的那就更好办了; sklearn 的 svm、贝叶斯,TensorFlow 的 textcnn、textrnn 在不在调参的基础上都能取得不错的效果,四分类不是一个太难的问题。
楼主可以 Google 关键词:text classification textcnn/textrnn,还有看看 sklearn 的官方文档,上面的例子蛮多的。 |
17
winglight2016 2018-12-02 09:47:11 +08:00
给 lz 提供一个极简方法: 设置两个门槛值,一个对应积极,一个对应消极,落在中间的部分就是中立,这样三个分类也算“多”分类了吧
|
18
rochek 2018-12-03 14:42:52 +08:00
这个很好做的,搜 text classification 一堆
基本原理就是文本分类,处理的好的话准确率应该 90 以上 数据集可买,可自搜 模型可买,可写 |