我感觉中文 ai 出来的话，应该做的第一件事是语义识别

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2570 天前的主题，其中的信息可能已经有所发展或是发生改变。

大环境如此，在这片土地上要么忍要么滚，但是呢，做的事又太糙了，都是瞎屏蔽，比如 **不离十。
以后中文 ai 发展起来了，第一件事应该是让汉字回归汉字，就不会在这里打码了。。。

汉字

中文

语义

屏蔽

29 条回复 • 2018-01-26 17:48:46 +08:00

PythonAnswer

2018-01-25 00:10:46 +08:00 via Android

拆字党火星文永远不怕

cisisustring

2018-01-25 01:22:30 +08:00

道理都懂,我们这一代不滚,下一代还会重复问自己要不要滚.

WuwuGin

2018-01-25 05:21:55 +08:00 via Android

错别字近音字无所畏惧

yearliny

2018-01-25 05:24:32 +08:00 via Android

@PythonAnswer 人能识别的，人工智能也能识别，火星文和拆字难道对机器学习没有办法吗？最大的问题在于，人可以创造新的组合方法，所以在一种新的拆字组合方法刚刚出现的时候，难以被屏蔽，但机器识别使得没有任何一种拆字组合方法成为主流，并且主流的鉴定标注的阈值会因机器学习的精准度不断降低。

当一句话不能长时间大范围流行的时候，这就已经给它的传播带来了极大的难度，你不能要求别人想猜谜一样不断的理解你的意思。

正如 Google 对验证码的理解一样，随着机器视觉识别的兴起，复杂的字符验证码只能增加人类识别的难度，对机器学习的 bot 越来越难以防范。同样的道理，当你想要通过拆字、组合、火星文等方法来传播 xx 信息的时候，你需要不断的增加歧义来混淆机器识别，但这同样会增加人类识别的难度。

wweir

2018-01-25 07:19:50 +08:00 via Android

@yearliny 这行文、排版的风格很是喜欢

pkookp8

2018-01-25 07:47:48 +08:00 via Android

验证码都没法攻克的 rob
文字转图片加码就好了吧

dd1982cn

2018-01-25 08:08:11 +08:00 via iPhone

就从多音字来说 ai 连店长都念不对怕是连从 0 到 1 都还没有何谈发展啊难道机器不学习这么基础的事情？

sean10

2018-01-25 08:14:40 +08:00 via Android

@dd1982cn NLU，词性标注可以做到识别多音字了吧。

aksoft

2018-01-25 08:32:48 +08:00

在等 20 年

dong3580

2018-01-25 09:03:44 +08:00

两种不同的语境,同样的一句话可以表达相反的意思,这就是中文的强大:
例如:"你做的好事"

purejs

2018-01-25 09:06:06 +08:00

瞎 YY 些啥

maskerTUI

2018-01-25 09:22:45 +08:00

领导：你这是什么意思？
小明：没什么意思，意思意思。
领导：你这就不够意思了。
小明：小意思，小意思。
领导：你这人真有意思。
小明：其实也没有别的意思。
领导：那我就不好意思了。
小明：是我不好意思。

提问：以上“意思”分别是什么意思？

enenaaa

2018-01-25 09:55:56 +08:00

说反了，什么时候能准确识别语义了，才会有强 AI。

snakeyou

2018-01-25 13:01:53 +08:00

@dong3580

任何语言都有类似的情况。

Shut up! 可以表示让对面闭嘴，也可以表示对对方所说事情的赞叹。
He can ’ t help himself(你能从字面看出这句话的实际意思吗)他无法抗拒做某事=他非常想做某事

日语有个万能词どうも，任何想跟人打个招呼（表示感谢歉意慰问等等等等）的情况下几乎都可以用。
说实话日语里这种情况是在太多了，因为由于组词的存在，日语口语中可以省略的句子成分太多了。

Mutoo

2018-01-25 13:24:06 +08:00

什么时候 AI 能够聪明到遇到不懂的句子，问人：这什么意思。然后给它解译一番，AI 说：原来如此，我懂了。下次它再遇到类似的东西能举一反三。那就不怕什么拆字啊火星文之类的了。细思极恐。

XinLake

2018-01-25 13:47:06 +08:00

Google 早就开始研究这事了，搜索引擎输入文字几乎就可以理解到用户的意思。此外还有图像识别。

人机对话过程中出现的一些模棱两可、模糊的含义，机器当即就提出，人就换个准确一点的表述。电影《钢铁侠》也有类似的场景，钢铁侠的电脑不就是具备语言和视觉能力的超级 AI 电脑么。语言理解+图像就像人的耳朵和眼睛，再加上 AI。

不过 Google 还提出过一个东西，就是知识图，就是将人类知识数字化，变成机器可以理解可以维护的数据集。目前图像识别里，吧图像的特征提取出来的数据（可用改数据匹配到图像），可以理解为一种简易的机器掌握的（数字化的）知识吧。就像人脑从小孩开始就建立人脑知识库，不断的除错完善扩大，机器这么做也需要漫长的过程