1
ipwx 2022-05-19 11:42:34 +08:00
1. 找一个巨大的语料库。
2. 用分词(比如 jieba )抽取词的 token 。 3. 然后直接统计。 ---- 但是…… 这个方法估计你得不到有意义的答案,原因是 word token 太稀疏了,所以是失真的。 改进方法: 1. 找一个巨大的语料库。 2. 用分词抽取 word token 。 3. 训练 word embedding model 。 4. 训练一个分类器,p(next word embedding | previous word embedding) ---- 如果要增加效果,可以考虑 p(next word embedding | context) 而不是只给定上一个词语。相关的改进建议查询论文。 |
2
IRuNamu 2022-05-19 12:14:55 +08:00
@ipwx 聽起來 像 分詞 之後 去除 Stop Words 做 Word2Vec 然後 對比 兩隻 詞(Tokens) 之間 的 轉移 概率
|
3
IRuNamu 2022-05-19 12:16:10 +08:00
聽起來 如果 有 上下文 可以 Train 一個 Bert Model 來 比對 p(next word embedding | context)
|
4
toeii OP 谢谢二位的回复!@ipwx @IRuNamu 可以方便加一下我的联系方式不(如上文)?因为刚刚接触 NLP (完全还没有入门),所以还想具体请教一下~~
|
5
jhdxr 2022-05-19 12:59:48 +08:00
学校作业么?要你手算的话,HMM 的?
|