V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ACSuperChen
V2EX  ›  程序员

求教一个机器学习相关的问题:多情感分类

  •  1
     
  •   ACSuperChen ·
    superchensss · 2018-12-01 23:33:04 +08:00 · 2448 次点击
    这是一个创建于 2184 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在做毕设,然后毕设题目大概是:基于文本的多情感分类,重点就是这个字。
    按照要求,大概要分四种情感。但是百度了一通,发现现在做的,好像都是情感二分:积极 or 消极,很难进行更多情感的分类。而且,现在进行分类的思路也就是是 NLP 相关的东西
    所以,想问下懂的 V2er,如果有做过这方面的大佬,我想请教一下,该用什么思路去完成这种多情感的分类?我只需要思路,不需要具体实现,或者有参考的文献更好,谢谢!

    18 条回复    2018-12-03 14:42:52 +08:00
    fairyto2
        1
    fairyto2  
       2018-12-02 00:03:40 +08:00 via iPhone   ❤️ 1
    无监督的话即使是二分类准确率也不高
    txy3000
        2
    txy3000  
       2018-12-02 00:11:56 +08:00 via Android
    数据集先跑一种情绪模型二分 负集部分再跑其他类型情绪模型做二分。。

    如果样本可以复合多种情绪标签,正集也跑一次。。

    multilable classification deep learning Google 一下应该有你需要的吧
    diggerdu
        3
    diggerdu  
       2018-12-02 00:17:12 +08:00
    mutli tasking learning / multi instance learning
    随便搜了下 找到一篇 ijcai2018 的文章 Text Emotion Distribution Learning via Multi-Task Convolutional Neural Network
    仅供参考
    Xs0ul
        4
    Xs0ul  
       2018-12-02 01:40:29 +08:00 via Android
    模型完全不是问题,二分类和多类并不算多大的差别。关键是你要怎么去找到对应的数据
    Xs0ul
        5
    Xs0ul  
       2018-12-02 01:49:28 +08:00 via Android
    推荐一个论文和思路:DepecheMood
    大致就是很多新闻之后会有 7、8 个按钮,震惊之类的,就直接把这些作为标签。论文里用的网站 www.rappler.com
    bugcoder
        6
    bugcoder  
       2018-12-02 01:57:04 +08:00
    可以做 emotion analysis 啊。
    six basic emotions: happiness, sadness, anger, fear, surprise, and disgust.
    做学问请不要用百度。找到你要做的题目的对应准确英文,然后用 google scholar 搜索。
    bugcoder
        7
    bugcoder  
       2018-12-02 02:07:09 +08:00
    https://pdfs.semanticscholar.org/12f8/11a52e5a786f556598c99c560ee3539ad684.pdf
    这个地方列举了不少 sentiment analysis tasks,可以用来开拓思路。
    kingcos
        8
    kingcos  
       2018-12-02 03:15:45 +08:00 via iPhone
    提个外行的问题,人要是假装,比如说假笑,怎么区分呢……
    dartabe
        9
    dartabe  
       2018-12-02 04:05:04 +08:00
    就像上面说的 多次二分

    比如 兴奋 非兴奋

    开心 不开心

    悲伤 不悲伤

    名字我有点忘了 好像是逻辑回归的多分类拓展
    dartabe
        10
    dartabe  
       2018-12-02 04:06:30 +08:00
    输出套一个 softmax 好像也是多分类吧
    Kilerd
        11
    Kilerd  
       2018-12-02 07:12:15 +08:00 via iPhone
    我的毕业也是情感多分类,同 6 楼那样,一开始想做六个分类,但是准确度奇差()
    Kilerd
        12
    Kilerd  
       2018-12-02 07:13:29 +08:00 via iPhone
    可能是我水平问题,后来改成了三分类,积极 中立,消极。效果还可以,80 的正确率,勉强能当毕设用
    Kilerd
        13
    Kilerd  
       2018-12-02 07:16:13 +08:00 via iPhone
    在做六分类的时候,我发现 marker 的个人主观性占了很大的评判比例,happiness surprise 太难分了。 对了,我用的数据是自己爬的豆瓣电影评论
    Kilerd
        14
    Kilerd  
       2018-12-02 07:18:56 +08:00 via iPhone
    @kingcos 正常的语料,不用 deep learning,只用统计法都可以判出来是 negative 的
    itskingname
        15
    itskingname  
       2018-12-02 09:08:13 +08:00 via iPhone
    我司目前已经有成熟可用的九情感分类了。
    swordspoet
        16
    swordspoet  
       2018-12-02 09:21:22 +08:00 via iPhone
    不知道你的数据集有没有标签,数据质量如何,如果上述两个问题的答案是肯定的,这个问题是比较简单的。传统的机器学习和深度学习都比较擅长解决这类问题,数据是中文的,你还要分一分词,如果是英文的那就更好办了; sklearn 的 svm、贝叶斯,TensorFlow 的 textcnn、textrnn 在不在调参的基础上都能取得不错的效果,四分类不是一个太难的问题。

    楼主可以 Google 关键词:text classification textcnn/textrnn,还有看看 sklearn 的官方文档,上面的例子蛮多的。
    winglight2016
        17
    winglight2016  
       2018-12-02 09:47:11 +08:00
    给 lz 提供一个极简方法: 设置两个门槛值,一个对应积极,一个对应消极,落在中间的部分就是中立,这样三个分类也算“多”分类了吧
    rochek
        18
    rochek  
       2018-12-03 14:42:52 +08:00
    这个很好做的,搜 text classification 一堆
    基本原理就是文本分类,处理的好的话准确率应该 90 以上

    数据集可买,可自搜
    模型可买,可写
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2674 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 15:21 · PVG 23:21 · LAX 07:21 · JFK 10:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.