大規模言語モデル (LLM) において用いられている深層学習モデルのアーキテクチャ
トランスフォーマー (Transformer) ほとんどの大規模言語モデルにおいて、アーキテクチャとしてトランスフォーマー (Transformer) が用いられています。 トランスフォーマーはアテンション (Attention) を用いて、入力テキスト中のすべてのトークン (トランスフォーマーにおける処理の単位) から情報を集めることができ、長い範囲の依存関係を捉えることが可能です。 なお、大規模言語モデルに入力するテキストをトークン化するために、SentencePieceというツールが用いられることがあります。トランスフォーマー以前の深層学習手法として、Skip-gramモデルがあり、これは単語のベクトル表現を学習する手法です。また、従来の言語モデルの一つとしてN-gram言語モデルがあります。これは、「直前のN-1個の単語に基づいて次の単語を予測する」モデルで、深層学習に基づくものではありません。