LSTM随记

2025-08-30

字数统计: 1.1k字 | 阅读时长: 4分

阅读量

LSTM流程

如上图，假设在时刻t时刻，输入为 $X_t$ ，前一时刻隐藏状态为 $h_{t-1}$ ，前一时刻细胞状态为 $C_{t-1}$ ，则LSTM的处理流程如下

遗忘门决定了我们应该从之前的细胞状态 $C_{t-1}$ 中遗忘哪些信息，公式为：

$f_t = \sigma(W_f \cdot [h_{t-1},X_t]+b_f)$

其中：

输入门决定了有多少新的信息要加入到细胞状态$C_{t-1}$中，公式如下：

$i_t = \sigma(W_i \cdot [h_{t-1},X_t] + b_i) \\ \widetilde{C}_{t} = tanh(W_C \cdot [h_{t-1},X_t] + b_C)$

其中

结合遗忘门和输入门的结果对细胞状态进行更新，这样记忆细胞可以抛弃一些无用的记忆，同时引入一些新的有用的记忆，公式如下

$C_t = f_t * C_{t-1} + i_t * \widetilde{C}_{t}$

其中：

输出门决定了新的更新后的细胞中有哪些信息将被输出，作为当前时间步的隐藏状态，供下一时刻的细胞使用，公式为

$o_t = \sigma(W_o \cdot [h_{t-1},X_t] + b_o) \\ h_t = o_t * tanh(C_t)$

其中

从我查阅的资料看，大致为以下原因：

sigmoid函数的输出范围是(0, 1)，它非常适合用于门控机制，因为门控需要一个介于0和1之间的值来表示“开启”或“关闭”的程度。在LSTM中，sigmoid用于遗忘门（Forget Gate）和输入门（Input Gate）的第一部分，以及输出门（Output Gate）。这些门控需要决定信息是否通过，sigmoid的输出恰好可以表示这种概率或比例。
tanh函数的输出范围是(-1, 1)，它适合用于表示一个值的范围或幅度，因为它可以输出负值和正值。在LSTM中，tanh用于初始化细胞状态的候选值（Candidate Values），以及最终的细胞状态和隐藏状态的计算。这些状态需要表示实际的值，而不仅仅是开启或关闭的比例，因此tanh可以提供更丰富的信息。
sigmoid函数在接近0或1时梯度很小，这有助于避免梯度消失问题，尤其是在门控机制中。tanh函数在整个定义域内都有相对较大的梯度，这有助于在更新细胞状态时保持梯度的稳定性。

具体更深一步的原因需要再深入探索理解。

解释1
解释2
注：上面的求导其实我还有很多疑问一时没有想通，先记录在此，如果大家看到，希望可以帮我解答一下
- 从向量维度来看， 并不是乘法运算，而是*哈达玛乘，实际在处理时应该怎么处理？
- 虽说 $C_{t-1}$ 可以有4条路径到达 $C_{t}$ ，但是这些路径并不全是求和的形式，为啥可以直接写成全部相加的形式？