masuke 2023年11月27日 カード4 いいね0

広告

単語カード

  • 大規模言語モデル (LLM) において用いられている深層学習モデルのアーキテクチャ
    トランスフォーマー (Transformer) ほとんどの大規模言語モデルにおいて、アーキテクチャとしてトランスフォーマー (Transformer) が用いられています。 トランスフォーマーはアテンション (Attention) を用いて、入力テキスト中のすべてのトークン (トランスフォーマーにおける処理の単位) から情報を集めることができ、長い範囲の依存関係を捉えることが可能です。 なお、大規模言語モデルに入力するテキストをトークン化するために、SentencePieceというツールが用いられることがあります。トランスフォーマー以前の深層学習手法として、Skip-gramモデルがあり、これは単語のベクトル表現を学習する手法です。また、従来の言語モデルの一つとしてN-gram言語モデルがあります。これは、「直前のN-1個の単語に基づいて次の単語を予測する」モデルで、深層学習に基づくものではありません。
  • Zero-ShotプロンプトとFew-Shotプロンプトの違い
    Zero-Shotプロンプトでは、例示を入れることなくタスクや回答内容の説明をプロンプト内に記述します。これに対してFew-Shotプロンプトでは、回答の精度を向上させることを狙ってタスクのインプットとアウトプットのペアをプロンプト内で例示します。 【解説】 [ Zero-ShotプロンプトとFew-Shotプロンプトの違い ] Few-Shotプロンプトには、タスクのインプットとアウトプットのペアをプロンプト内で例示することで回答の精度を向上させる狙いがあります。 GPT-3ではこのFew-Shotプロンプトによる回答精度が高いことや例示の数を増やすほど精度が向上する傾向にあることが示されています。 これに対して、Zero-Shotプロンプトでは、例示を入れることなくタスクや回答内容の説明をプロンプト内に記述します。
  • GPT3
    言語モデルとは、人間が話したり書いたりする言葉を単語の出現確率でモデル化したものです。一般的な言語モデルは、大量のテキストデータを使って事前に学習したベースモデルをもとに、テーマに合わせた専用の再学習(ファインチューニング)をすることで精度を高めます。しかし、この再学習には教師データ(例題と答えのデータ)を使うため、そのデータの準備に多大な労力がかかるという課題があります。これに対してGPT-3は、桁違いに膨大なテキストデータを用いて学習することで、ファインチューニングを必要としない言語モデルを作り出しています。 GPT-3は、Wikipedia やCommon Crawl(Webサイトから収集されたデータ)などから集めた45TBもの膨大なテキストデータに対し、いくつかの前処理を行った570GBのデータセットを学習に用いています。このデータセットに対して、1750億個のパラメータを持つ自己回帰型言語モデル(ある単語の次に出てくる単語を予測するモデル)を学習することで、これまでにない巨大な言語モデルを作成しています。 https://www.nri.com/jp/knowledge/glossary/lst/alphabet/gpt_3
  • 基盤モデル
    基盤モデルとは「大量かつ多様なデータで訓練され、多様な下流タスクに適応(ファインチューニングなど)できるモデル」のことです。具体例としては、大量のテキストデータで学習することで感情分析や質問応答など多数のタスクで使えるようになった BERT や、加えて翻訳などの生成系タスクもできる GPT-3 、大量の画像・説明文ペアで学習することでゼロショット画像分類ができるようになった CLIP などが挙げられます。
広告

コメント