-
画像中の複数物体に対する予測を行う技術
一般物体認識
-
画像に写っている物体の位置とカテゴリ(クラス)を検出する手法の一つでBounding BoxでROIを指定し画像分類器でクラス推定すること
物体検出
-
R-CNNでは物体候補領域の検出に(A)を利用し色や強度などが類似する隣接ピクセルをグルーピングする
Selective Search
-
ROI
関心領域
-
物体が存在しそうな領域を洗い出す課題
物体候補領域検出
-
Regional CNNではCNNで特徴抽出し(A)でクラス分類を行う
SVM
-
物体検出では(A)を用いて物体の候補領域を切り出す
バウンディングボックス
-
物体領域を画素単位で切り出し各画素をクラスに割り当てる一般物体認識手法。
セマンティックセグメンテーション
-
セマンティックセグメンテーションの有名なモデルの一つで最初から最後まで折り畳み層であり全結合層を有しないモデル
完全畳み込みネットワーク
-
CNNでは画像ごとにラベルがつけられFCNでは(A)ごとにラベル付けされた教師データで学習させる
画素
-
セマンティックセグメンテーションと物体検出を統合
インスタンスセグメンテーション
-
インスタンスセグメンテーションの手法でワンステップでInstance Segmentationを行う
YOLACT
-
全体に対して一度のみCNNを適用する
Fast R-CNN
-
Faster R-CNN(A)、SSDは領域の切り出しと物体認識を同時に行い高速化
YOLO
-
エンコーダを用いて入力画像から特徴マップを抽出しデコーダを用いて特徴マップ友との画像の画素位置の対応関係をマッピングする
SegNet
-
自然言語を統計的に解析できる形に変換し機械で処理する一連の技術
NLP
-
文章を「意味を持つ表現要素の最小単位」に分割し品詞推定する解析作業
形態素解析
-
文章をN文字あるいはN単語ずつ区切りながら分解するアプローチ
N-gram
-
形態素解析の終了後に主語や述語の係り受け構造を推定したり、形態素間の関係性を文法的に解析する手法
構文解析
-
同じ文中の意味構造を見出すための解析
意味解析
-
複数文の関係性を解析することで文章全体の意味を把握する作業
文脈解析
-
文脈解析の一つで文章内に存在する代名詞などの照応表現が指している箇所を推定する手法
照応解析
-
文章の中の文と文の間の意味的構造から因果や背景などを解明するための手法
談話構造解析
-
テキストデータに散在する不要な文字列を除去する
データクレンジング
-
データクレンジングの除去対象の一つで、情報量が少ない単語、解析に関係ない単語
ストップワード
-
文章における単語の出現頻度を考慮した数値ベクトルに変換する
Bag-of-Words
-
単語に重要度を付与する
TF-IDF
-
ある文章中の特定の単語の出現頻度を表す指標
TF
-
全文章中で特定の単語を含む文章がどれくらい小頻度で存在するかを表す指標
IDF
-
自然言語処理に用いられる大規模なテキストデータ
コーパス
-
2000年に開発された適切な演算を行う変換行列を用いて、単語を低次元で密な数値ベクトルに変換した表現
分散表現
-
Distributed Representationで数値ベクトルを計算する変換行列は(A)と呼ばれる
埋め込み層
-
2013年に発案された(A)は二層のニューラルネットワークのみで構成され、これにより現実的な時間で大規模なテキストデータ処理が可能になった
Word2Vec
-
Word2Vecのある単語を与えて周辺の単語を予測するモデル
スキップグラム
-
Word2Vecの周辺単語を与えてある単語を予測するモイでるを
CBOW
-
クラスタリングを用いて文章中の話題を見つける統計手法
トピックモデル
-
トピック抽出のためのベーシックな手法で、単語の出現数に注目した文章と単語間の共起行列を生成しその行列に対して特異値分類(SVD)を行うことで、潜在的なトピックを見つける
潜在的意味解析・Latent Semantic Analysis
-
確率の考え方を取り入れてLSA(潜在的意味解析)を拡張した手法で、文書はある確立モデルに基づいて生成され、1つの文章は一定の確率を持って複数のトピックに関連づけられていることを仮定としている
確率的潜在的意味解析・Probabilistic Latent Semantic Analysis
-
LSA/潜在的意味解析とPLSA/確率的潜在的意味解析の二種を発展改善した形で開発
潜在的ディリクレ配分法・Latent Dirichlet Allocation
-
LDA/潜在的ディリクレ配分法では(A)という確率分布に従って各文章や単語が生成されることを仮定としながらトピックの確率値を出力する
ディリクレ分布
-
その単語に対応するインデックスだけ1、残りは全て0であるような高次元且つスパースな単語ベクトル
One-Hotベクトル
-
単語埋め込みでは変換行列を用いて単語を低次元なベクトル(A)に変換
分散表現
-
(A)を用いて各単語をベクトル空間上の点として捉えることで意味や類似性をベクトルの演算で表現可能
ベクトル空間モデル
-
NNの隠れ層の最適化を通じて単語の意味や関係性を数値ベクトルを用いて表現できるモデル
Word2Vec
-
文章間の類似度をベクトル演算で表現する手法
Doc2Vec
-
Word2Vecのアルゴリズムで中心語を与えて前後の範囲内(Window幅)に周辺語が存在する確率
スキップグラム
-
Word2Vecnoアルゴリズムで周辺語をWindow幅で与えて単語Aを推定する
CBOW・Continuous Bag Of Words
-
2013年にWord2Vecの延長線上にあるフレームワークとして(A)が開発された。Wikipediaなどを学習データとして使用し157言語で訓練させる
fastText
-
fastTextでは単語を(A)の集合として表現し単語をより小さな部分語に分解しOut of Vocabularyの単語が入力された際に以前に学習済み単語の部分語に基づいて単語埋め込みを表現することができる
N-gram
-
入力された時系列(Sequence)から新しい時系列へ変換し出力するモデル
Seq2Seq
-
”過去用””未来用”の二つのRNNを組み合わせ、未来から過去の方向に学習することを可能にし、このコンセプトで設計された双方向RNN言語モデルを(A)と呼ぶ
Bidirectional RNN・BiRNN
-
2018年開発の対象単語を含む文章全体を学習の入力とし、深いネットワークを使って埋め込み表現を学習することを特徴とする
ELMo・Embeddings from Language Models
-
2016年Googleが発表したニューラル機械翻訳
GNMT・Google Neural Machine Translation
-
GMNT/GoogleNeuralMachineTranslationsはグーグルが開発した(A)モデル
ニューラル機械翻訳
-
2017年にGoogleが開発した(A)により長い文章の解析精度の飛躍的向上をもたらす
Transformer
-
各時刻における情報の重要度(重み)を計算し重要度の高い情報に”注意”を向けて学習する手法
Attention・注意機構
-
Attentionを並列に並べて性能向上を図る
Multi-Head Attention
-
入力された系列(文)の”各単語が他のどの単語とどの程度関連しているか”を計算する機能を有する
Self-Attention・自己注意機構
-
入力系列(Source文)の各部分に対する出力系列(Target文)の各単語の関連性を解析する仕組み
Source-Target Attention
-
デコーダへ入力される”前の時刻で生成された出力単語”との関係を捉えることで出力系列の生成において適切に次の単語が選ばれることに寄与する
Masked Self-Attention
-
Self-Attentionは単語の関係性と文脈を高速計算可能という長所のある一方で(A)に関する情報を直接考慮できないという弱点がある
語順
-
Transformerでは(A)を用いて各単語が系列中の何番目の位置にあるかを一意に区別するための位置情報をベクトルとして表現しこれらの位置ベクトルを単語の埋め込みベクトルに追加します
位置エンコーディング・Positional Encoding
-
膨大な数のパラメータから構成された汎用的な言語モデルLLM
大規模自然言語モデル
-
インターネット上の大量のテキストデータ(コーパス)を学習し自然言語処理に関する一般的な知識や情報を獲得すること
事前学習・Pre-Training
-
モデルのパラメータ数とそれに伴う訓練データ、計算量などが増加するにつれモデルの性能もほぼ同じ割合で向上するという経験則
スケール則・Scalling Laws
-
2018年Googleによって開発された事前学習を取り入れた大規模自然言語モデル
BERT・Bidirectional Encoder Representations from Transformer
-
2019年にOpenAIから発表された事前学習を取り入れた大規模自然言語モデル
GPT・Generative Pre-Trained Transformer
-
GPYそのものはニューラルネットワークのモデルであり、それを実用的なタスクに活用するためにモデルに入出力を行うインターフェイスの代表例として(A)という対話型文章生成AIがある
ChatGPT
-
自然言語処理モデルの性能を客観的に評価しモデル間で比較するために用いられる
ベンチマーク
-
テキストからポジティブまたはネガティブな感情を特定しレビューの感情分析やSNS、マーケティング、施策に役立てる言語タスク
感情分析・Sentiment Analysis
-
文章を一つまたは複数のカテゴリーに分類し検索可能にする。スパムメールの振り分けやウェブニュースのカテゴライズやレコメンドにしようされる言語タスク
テキスト分類・Text Classification
-
特定の質問に関する正確な答えを出力する選択問題や文章から問題文の答えを抜きだす機械読解(Reading Comprehension)、対話形式の質問応答があり、チャット型サービスなどで使用される言語タスク
質問応答・Question Answering
-
代表的な言語タスクのベンチマークの一つで新しい言語モデルを論文で発表する際にはこのベンチマークを使用する
GLUE・General Language Understanding Evaluation
-
機械翻訳や次文予測、自然言語推論など複数の技術を同時に実現する汎用的な言語モデル
マルチタスク言語モデル
-
モデルの学習に用いられる大量かつ多様な自然言語テキストのデータベース
コーパス
-
これまで学習したデータから習得した特徴に基づいて指定された形式で新しいデータを生成するAI
Generative AI・生成AI
-
Gen-AIに質問する文章や文章要約などのタスクを実行させるための命令文
プロンプト
-
目的別に最適な命令文をみつけるまたは設計するための研究・技術のこと
プロンプトエンジニアリング・Prompt Engineering
-
質問or特定のタスクに関する指示
命令・instructions
-
望む返答に導くための背景情報や文脈情報
文脈・context
-
出力形式の指定
出力指示子
-
正確な応答を行うために必要なデータ、実行してほしいことに関する入力データ
入力データ
-
OpenAIから2022年11月に発表されたGPT-3.5ベースの対話型AI
ChatGPT
-
2023年3月にGPT-4が公開されGPT-4ベースの対話型AIが有償提供開始
ChatGPT PLUS
-
2023年3月にgoogleによって(A)が提供開始。同社の大規模言語モデルPaLM2が使われている
Bard
-
2023年12月にマルチモーダルgen-AIモデルがGoogleから発表
Gemini
-
2023年2月Metaから発表された大異規模言語モデル
LLaMA・Large Language Model Meta AI
-
ChatGPTのベースとなるGPTは(A)を応用したモデル
Transformer
-
GPThaウェブから収集した大量のテキストデータを用いて(A)を行い”自然言語の一般的な知識”を学習する
教師なし学習
-
ChatGPTのファインチューニング全体のプロセスには人間が関わっており人間からのフィードバックに基づいてモデルが訓練され言語モデルをユーザーの意図に合わせることができる手法
Reinforcement Learning from Human Feedback・RLHF
-
学習データにない内容を質問された際には、テキストを確率的に生成しているが故に学習データに根拠がなくても相対的に確率の高い単語を返答するためにサラッと虚偽の内容を生成することが起きる
ハルシネーション・幻覚
-
学習用画像の特徴量が分布している空間
潜在空間
-
変分オートエンコーダー・Variational Auto-Encoderは(A)を活用した生成モデル
オートエンコーダ
-
(A)ではオートエンコーダで抽出した特徴量を確率分布で表現することにより未知のデータを確率的に生成できるようにしたモデル
変分オートエンコーダ
-
ジェネレータ・Generatorとディスクリミネータを競合させることで本物と見分けがつかないような画像を生成する手法
敵対的生成ネットワーク・Generative Adversarial Network
-
GANにおいてディスクリミネータを騙せるような画像を作るように学習し、学習用画像の潜在空間のベクトルを入力しそれに従って類似画像を生成する
生成器・Generator
-
GANにおいてジェネレータが生成した偽物を識別できるように学習する。偽物データと本物データを入力として受け取り、真偽を予測して出力し、予測結果をジェネレータにフィードバックさせる
識別器・Discriminator
-
Generative Adversarial Network の発展版ではジェネレータとディスクリミネータの各々にCNNを採用しさらに高度な特徴量を持つ画像の生成が可能になる
DCGAN・Deep Convolutional GAN
-
ジェネレータには(A)を入力し本物のデータに近づけるように写像するようにし新たなデータを生成している
ランダムノイズ
-
入力画像と目標画像の関係性や変換を学習するツール
Pix2Pix
-
先行するPix2Pixよりも柔軟性の高い画像スタイル変換のモデルで、教師なし学習を使うために学習データの準備コストが削減される
CycleGAN
-
元データに徐々にノイズを加えて完全なノイズになるまでのプロセスを逆転しノイズを徐々に除去することでデータ復元を学習しこのプロセスを利用して新しいデータを生成する
拡散モデル・Diffusion Model
-
2022年4月にOpenAIから発表された拡散モデルを使用した画像生成AI
DALL・E2
-
DALL・Eは学習データをVAEの一種の(A)に特徴量を圧縮しこれをキャプションとペアにしてGPT-3で機械学習を行います
VQ-VAE
-
DALL・E2では(A)という画像分類モデルと拡散モデルを組み合わせた2段階のモデル
CLIP
-
CLIPではテキストエンコーダーと画像エンコーダから構成されテキストの対する画像の類似度である(A)を測り画像データを分類する
コサイン類似度
-
拡散モデルを特定のテキスト(クラスラベル)で条件づけながらより本物らしい画像を生成する手法
誘導拡散・Guided Diffusion
-
入力された音声波形からスペクトラムを作成し数理モデルを用いて内容推定をする
音声認識
-
音声をコンピュータで処理可能な離散的データに変換を行いこの変換を(A)と呼ぶ
A-D変換・Analog to Digital Conversion
-
Analog to Digital Conversion/A-D変換に用いられる手法
パルス符号変調・Pulse Code Modulation
-
様々な周波数成分の重なりである時間ごとの音声信号を周波数スペクトルに高速に変換する手法
高速フーリエ変換・Fast Fourier Transform
-
音声の周波数成分の強さ(振幅)を時間の関数として表した波形データ
音声スペクトル
-
音や声の特徴を表す「周波数ごとの強さの大まかな形」
スペクトル包絡/ほうらく
-
音声や音響信号の特徴を数値で表すための代表的な手法です。主に音声認識や話者認識などの分野で広く使われている
メル周波数ケプストラム係数・Mel Frequency Cepstrum Coefficients/MFCC
-
スペクトル包絡に観察されるピークが経っている複数の周波数のこと
フォルマント周波数
-
音素(母音や子音などの最小単位)の音響的なパターンをモデリングし観測された音声データがどの音素から生じた可能性が高いか推定する状態遷移モデル
隠れマルコフモデル・Hidden Markov Model/HMM
-
文章から自然な音声に変換すること
Text-to-Speech/TTS
-
話者による短い音節の集合体から必要な物を結合して音声を合成する
波形接続TTS・Concatenative TTS
-
話す内容や特徴を入力によって操作できる技術、文法、口の動き、高さ、抑揚などの特徴に関するパラメータを使用し音声を生成する
パラメトリックTTS
-
ディープニューラルネットワークを用いた音声合成にブレークスルーをもたらした2016年DeepMind社によって発表翌2017年に実用化されたモデル
WaveNet
-
層が深くなるにつれて畳み込むユニットをスキップする仕組み
Dilated Causal Convolution
-
DQNでは価値の推定や学習を安定化させるためのテクニックが導入されており(A)は環境を探索する中で得られる経験データを”リプレイバッファー”に保存しそこから適切なタイミングでランダムに抜き出し、学習に利用する。
経験再生・Experience Replay
-
(A)では現在学習中のネットワークと過去に遡ったネットワークの”TD誤差”を教師データに使う仕組み
ターゲットネットワーク・Target Network
-
囲碁AIとして2015年にDeepMInd社が開発したモデルが世界トップ棋士を倒す
AlphaGO
-
AlphaGoでは打つ手の探索に(A)を使用し基盤の状況認識にCNNを使用する
モンテカルロ探索法
-
2017年10月に同社からAlphaGOの強化版が発表
AlphaGo Zero
-
AlphaGo Zeroの最大の特徴は(A)で学習していることでありこの登場によってゼロベースから学習を始めた方が良い場合もあると言うことがわかった
完全自己対局・Self-play
-
ある状態から平均的に期待できる未来の累積報酬を計算しながらTD誤差を最小化するように学習を行う
価値反復法
-
環境についての情報が必要な強化学習を(A)強化学習と呼ぶ
モデルベース
-
モデルベース強化学習では状態遷移確率やマルコフ決定課程に関する(A)パラメータが既知であり明示的な推定できることが条件
環境
-
環境についての情報が不要な強化学習を(A)強化学習と呼ぶ
モデルフリー
-
行動を決めるActor(行動器)を直接改善しながら方策を評価するCritic(評価器)を同時に学習させるアプローチ
Actor-Critic
-
2016年DeepMind社によって提案された強化学習アルゴリズムで複数のエージェントが同じ環境で非同期かつ並列に学習すること
A3C・Asynchronous Advantage Actor-Critic
-
シミュレーションを用いてあらかじめ方策(policy)を学習し、その学習した方策を実世界にも適用させるための手法
sim2real
-
現実世界とのギャップ
パフォーマンスギャップ
-
モデルのシミュレーション環境への過学習を防止することを目指した手法
ドメインランダマイゼーション・Domein Randomization
-
従来の強化学習では実際に環境と作用しながら学習しておりこれを(A)と呼び最適な意思決定を獲得できるまでに最適でない選択を実環境で繰り返し行って学習する必要がある
オンライン強化学習
-
あらかじめ事前に集めたデータのみを使って強化学習を行う手法で、モデルを適用する前に実環境から集めた過去のデータを使って性能評価を行う
オフライン強化学習
-
複数の主体(エージェント)が同時に強調してあるいは競争的に学習する強化学習
マルチエージェント強化学習
-
強化学習の開発を手軽に行うためのツールキット(ライブラリの集まり)
OpenAI Gym
-
1つのディープニューラルネットワークを用いて一連のプロセスとして行動や動作を学習すること
一気通貫学習・end-to-end 学習
-
自分のターンの時にスコアが高く、また相手のターンの時にスコアが最小になるような打ち手を探索するためのアルゴリズム
mini-max法
-
数理モデルを用いて直接的に方策の良さを推定するアルゴリズム
方策ベースアルゴリズム
-
価値を推定することで間接的に方策を最適化するアルゴリズム
価値ベースアルゴリズム
-
環境をパラメータで明示的に表現しパラメータを最適化することで直接的に方策を学習するアルゴリズム
モデルベースアルゴリズム
-
環境パラメータを推定せずに、Q学習のように方策を求めるアルゴリズム
モデルフリーアルゴリズム
-
複数タイプの入力情報を同時に利用する技術
マルチモーダル技術
-
マルチモーダル技術の代表例の1つで与えられた画像に対して画像に写っている物体を説明する自然言語を生成する技術
ニューラル画像脚注付け・Neural Image Captioning/NIC
-
LIME/Local Interpretable Model-agnostic Explanations は特定の入力データに対する予測について判断根拠を解釈・可視化する(A)なモデル解釈ツール
局所的・ローカル
-
2016年にLundbergとLeeにより発表された局所的なモデル解釈ツール
SHAP・SHapley Additive exPlanations
-
モデル全体に対する予測根拠を解明するための手法で主にCNNによる画像認識を対象としており”画像のどこに注目してクラス分類しているのか”を可視化する
Grad-CAM
-
Grad-CAMでは解釈過程の中で画像の解像度が下がってしまうという問題点がありこの問題を解決するために入力値の勾配情報も合わせて利用する(A)と言う改良版が開発される
Guided Grad-CAM
-
自然言語処理における文章を最小単位で区切って記す部分の呼称
分かち書き
-
ストップワードを取り除くことは(A)の一部
データクレンジング
-
「文の中で、どの文節がどの文節にどのように関係しているか(依存しているか)」を示す、日本語文法の基本的な考え方
係り受け構造
-
物体検出においてバウンディングボックスを用いて画像被写体の(A)を切り出し、(A)を画像分類器に入力しクラス推定を行う
候補領域
-
先に物体検出を行い続いてセマンティックセグメンテーションを行う手法のこと
インスタンスセグメンテーション
-
Grad-CAMは画像認識において(A)を用いて推論の根拠を可視化する大域的なモデル解釈手法
勾配情報
-
音声認識において(A)は発話者の声質や発音の特徴識別に重要
音色
-
言語に依存せずに人の発生を区別できる音の要素
音韻
-
音韻が近ければスペクトル包絡の上で観察される(A)で表されるピーク値も近い値をとる
フォルマント周波数
-
Transformerでは(A)を採用することによって単語の順序に関する情報を入力に加味している
位置エンコーディング
-
GPTの事前学習には(A)が用いられる
自己教師学習
-