1
ipwx 2022 年 5 月 19 日
1. 找一个巨大的语料库。
2. 用分词(比如 jieba )抽取词的 token 。 3. 然后直接统计。 ---- 但是…… 这个方法估计你得不到有意义的答案,原因是 word token 太稀疏了,所以是失真的。 改进方法: 1. 找一个巨大的语料库。 2. 用分词抽取 word token 。 3. 训练 word embedding model 。 4. 训练一个分类器,p(next word embedding | previous word embedding) ---- 如果要增加效果,可以考虑 p(next word embedding | context) 而不是只给定上一个词语。相关的改进建议查询论文。 |
3
IRuNamu 2022 年 5 月 19 日
聽起來 如果 有 上下文 可以 Train 一個 Bert Model 來 比對 p(next word embedding | context)
|
4
toeii OP 谢谢二位的回复!@ipwx @IRuNamu 可以方便加一下我的联系方式不(如上文)?因为刚刚接触 NLP (完全还没有入门),所以还想具体请教一下~~
|
5
jhdxr 2022 年 5 月 19 日
学校作业么?要你手算的话,HMM 的?
|