NLP 领域学术界进展： 2017

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 3166 days ago, the information mentioned may be changed or developed.

原文发表于我的博客： NLP 领域学术界进展：2017

前一段听了 Manning 的分享，结合现实场景，这里做一次目前 NLP 学术界进展的 review

NLP 领域学术界进展

实际上，近年来 NLP/CV/大数据领域的学术界和工业界基本已经不分家了，学术界能做到的，只要不脱离工业太远（基础性改造），基本上就会在工业界得到应用。

图上大部分都表达为标注任务，做有监督学习都可以直接解决，特殊的，翻译类任务会作为文本对齐（序列化有监督学习）来解决，而 QA/Dialog 目前也没有摆脱标注样本训练的过程。

图上出现的比较有意思的几点：

WSD：语义消歧，似乎是一个简单的事情，实际上非常难做，最主要是即不可能有充足的样本，且也没有一个 teacher，进行 lifelong-learning，而只能靠 KB、词典进行消歧。用词典进行消歧往往会受限于词典本身的约束（看一个词条并不能看懂），而对互联网知识直接进行（半监督）学习又很容易出错，没有一个体系化的收敛方法。
Summarization：文本生成至今仍然是一个很难的问题，一方面是 GAN 在 NLP 下应用仍然有比较强的限制，另一方面是 NLP 的生成式任务很难有一个好的评价方法。近年来强化学习+GAN 在 NLP 上有一些应用，但仍然不成熟。

图上没有出现的比较有意思的点：

互联网知识结构化：如何将互联网知识完全的结构化，并让机器完全的理解？
机器语言：如何让机器之间进行交流，能互相进行信息的补充与互学习？
专业领域建模：数学、物理、化学、计算机等专业领域进行建模，如自动化的 debug （据说已经有准确率达到~80%的自动化程序 debugger ）

Manning 表示 2017 是 NLP+Attention+BiLSTM 的一年，相信 2018 是 GAN+RL+NLP 的一年，不知明年是否有闲，可以发些文章

注：很多东西没有介绍，感兴趣的 V 友可以留言交流

NLP

学术界

消歧

Gan

11 replies • 2017-09-18 10:08:50 +08:00

alexapollo

Sep 18, 2017

举个例子：比如 V2EX 文章底部的几个词，就是一个标准的 keyphrase extraction
它最难的一个点就是很难确定评判标准，是一个比较主观的事情，像这里如果能提一个 Manning，就很有意思

而 entity linking 可以将 Manning 链接到 Stanford 的 Christopher Manning 教授，更进一步的靠近了现实知识

HowardMei

Sep 18, 2017 via Android

请教最新进展： https://www.v2ex.com/t/382875#reply0

woodfish

Sep 18, 2017

有网上视频吗，求一个分享

alexapollo

Sep 18, 2017

@HowardMei 语义分析是一个比较广泛的概念，专利分析比较相关的领域应该是 Information extraction，也即把里面的信息提取出来结构化，这个领域已经有很多工业手段，也有一些比较新的研究（正如上文的 Attention ）

你可以讲讲你的场景，看看有什么可以帮助你的

alexapollo

Sep 18, 2017

@woodfish 我的没有，推荐可以看看 Stanford CS 224n 的课程：cs224n.stanford.edu

HowardMei

Sep 18, 2017 via Android

@alexapollo 仅仅提取是不够的，要做交叉关联分析查重查新，能发现竞争对手专利布局模式，最好还能自动生成高通过率的专利申请文本。

AntiGameZ

Sep 18, 2017 via iPhone

你说的图里没有提到的部分，应该就是语义网和本体论的部分吧(semantic web & ontologies)

最近上课在看论文，云里雾里的。

alexapollo

Sep 18, 2017

@HowardMei 点可能很多，比如查重，就是一个 text match 问题，这里由于有对抗（替换相近词），所以考虑引入词向量就能解决不少问题

alexapollo

Sep 18, 2017

@AntiGameZ semantic web 是另外一个努力的方向，和这个方向还不大一样，而且现在 kg 也基本替代 sw 成为事实标准了

Morriaty

Sep 18, 2017

Text Similarity 已经算已解决问题了吗！！

alexapollo

Sep 18, 2017

@Morriaty 你看横向的事情（一部分是可演进的），后面是 translation，paraphrase