LanguageModel

less than 1 minute read

Published: September 05, 2024

语言模型

给定文本序列$x_1,…,x_T$ ,语言模型的目标是估计联合概率 $p(x_1,..,x_T)$

应用：

若序列长度为2 ，预测 $p(x,x^{\prime})=p(x)p(x^{\prime}|x)=\frac{n(x)}{x}\frac{n(x,x^{\prime})}{n(x)}$ n为总词数（即为词库中所有词的数量，$n(x)$ , $n(x,x^{\prime})$是单个单词和连续单词对的出现次数
序列长度3同理

当序列很长，因为文本量不够大，很可能 $n(x_1,…,x_T)\leq 1$
使用马尔科夫假设缓解问题
- 一元语法: $p(x_1,x_2,x_3,x_4)=p(x_1)p(x_2)p(x_3)p(x_4)\ \ =\frac{n(x_1)}{n}\frac{n(x_2)}{n}\frac{n(x_3)}{n}\frac{n(x_4)}{n}$ 此语法其实有点像各事件相对独立的概率乘积
- 二元语法 $p(x_1,x_2,x_3,x_4)=p(x_1)p(x_2|x_1)p(x_3|x_2)p(x_4|x_3)\\ \\ =\frac{n(x_1)}{n}\frac{n(x_1,x_2)}{n}\frac{n(x_2,x_3)}{n}\frac{n(x_3,x_4)}{n}$
- 三元语法同理