原文发表于我的博客: NLP 领域学术界进展:2017
前一段听了 Manning 的分享,结合现实场景,这里做一次目前 NLP 学术界进展的 review

实际上,近年来 NLP/CV/大数据领域的学术界和工业界基本已经不分家了,学术界能做到的,只要不脱离工业太远(基础性改造),基本上就会在工业界得到应用。
图上大部分都表达为标注任务,做有监督学习都可以直接解决,特殊的,翻译类任务会作为文本对齐(序列化有监督学习)来解决,而 QA/Dialog 目前也没有摆脱标注样本训练的过程。
图上出现的比较有意思的几点:
- WSD:语义消歧,似乎是一个简单的事情,实际上非常难做,最主要是即不可能有充足的样本,且也没有一个 teacher,进行 lifelong-learning,而只能靠 KB、词典进行消歧。用词典进行消歧往往会受限于词典本身的约束(看一个词条并不能看懂),而对互联网知识直接进行(半监督)学习又很容易出错,没有一个体系化的收敛方法。
- Summarization:文本生成至今仍然是一个很难的问题,一方面是 GAN 在 NLP 下应用仍然有比较强的限制,另一方面是 NLP 的生成式任务很难有一个好的评价方法。近年来强化学习+GAN 在 NLP 上有一些应用,但仍然不成熟。
图上没有出现的比较有意思的点:
- 互联网知识结构化:如何将互联网知识完全的结构化,并让机器完全的理解?
- 机器语言:如何让机器之间进行交流,能互相进行信息的补充与互学习?
- 专业领域建模:数学、物理、化学、计算机等专业领域进行建模,如自动化的 debug (据说已经有准确率达到~80%的自动化程序 debugger )
Manning 表示 2017 是 NLP+Attention+BiLSTM 的一年,相信 2018 是 GAN+RL+NLP 的一年,不知明年是否有闲,可以发些文章
注:很多东西没有介绍,感兴趣的 V 友可以留言交流