意味出てきた場所
予測Forward
誤差の大きさLoss
傾きBackward
更新学習ステップ
$P(w_tw_1, …, w_{t-1})$次トークン確率
$L = -\sum \log P(w_t… )$交差エントロピー損失
損失最小化最終目的