mits58のメモ

メモ 参考にしないでください

LSTMってなんだ?

A. Long-Short Term Memory(こなみ)

最近LSTMをブラックボックスとして使ったので最低限何してるかくらいは把握したく

 

なんでつかう

  • 時系列ならRNNでいいじゃんわかりやすいし
  • でも、近くの情報ばかり見ちゃって言語処理タスク辛い時ある……
  • 長短期記憶持たせて強い時系列モデル作っちゃうよん

核になる部分

  • Cell Stateが重要、こいつはずっと系列の情報流し続けてるって感じ
  • なんでかっていうと、こいつ自体はadd or multiply操作しかされないので
  • じゃ、multiply操作の部分で何してるかっていうと、「どの情報を流しますか?」マスクをかけてる
  • add部分では「どの情報を追加しますか」を制御している

こんな感じでLSTMはCell Stateをうまく制御して長短期記憶をいい感じにしています

 

入力情報に対して適応的に、

  • 忘れたり
  • 情報を記憶させたり
  • 記憶情報から引き出したり

をしているのが特徴なんすねぇ……

 

っていうことがこちらに書かれていて素晴らしいです。

colah.github.io

 

僕はムチムチの実の能力者だったので、Gated Recurrent Unitの中身を知らなかったのですが、これってLSTMの変種だったんですね……

でもこれ複雑すぎん?