G検定～「公式テキスト第2版」編～

mer0 2021年11月07日カード309 いいね3

単語カード

オッズ

事象が起こる確率を怒らない確率で割ったもののこと
ロジスティック回帰

事象が起こる確率pと怒らない確率(p-1)の対数、つまり対数オッズを線形回帰する手法。数式: log(p/(1-p))
一般線形モデル

データの分布が正規分布であることが仮定された線形モデル
一般化線形モデル

データの分布が正規分布ではなくても使用できる数式モデル。データの分布に対応するリンク関数を選択して、分布にあった分析を行う事が可能
ロジット関数

二項分布の線形モデルで使用するリンク関数
対数関数

ポアソン分布の線形モデルで使用するリンク関数
サポートベクターマシン(SVM)

判別境界の付近にある判断の難しい観測に着目する分類モデル
サポートベクトル

判別境界に最も近い観測値
カーネル関数

線形分離可能にするために、高次元の写像を探す際に使用する関数
カーネルトリック

高次元の学習を行う際の計算量増加を低く抑える為のテクニック
サポートベクトル回帰(SVR)

サポートベクターマシンを用いた回帰モデル
スケール

特徴量がとりえる値の範囲やばらつき
k近傍法

データ間の距離(ユークリッド距離)により回帰や分類を行うモデル。学習データのうち距離が最も近いk個のデータの目的変数を多数決・平均することにより予測する
最近傍法

分類問題における識別境界がk=1の時に最も複雑で入り組んだ予測になるk近傍法
過学習

探索木において、木の幅や深さを増やしていくほど学習データにより適用した予測をすること。
教師あり学習

与えられたデータを元に、そのデータがどんなパターン(出力)になるのかを識別、予測する学習
教師なし学習

与えられたデータを元に、データそのものが持つ構造・特徴が何なのかを学習
強化学習

目的とする報酬(スコア)を最大化する為にはどのような行動を取っていけばいいかを学習。状態・行動・報酬のやりとりを1時刻(ステップ)語と進めて考える。
シグモイド関数

ロジスティック回帰により2種類の分類の際によく使用される出力関数
ソフトマックス関数

ロジスティック回帰により沢山の種類の分類の際によく使用される出力関数
ブーストラップサンプリング

決定木に使用するデータをランダムに取得する方法
ランダムフォレスト

複数の決定木を作成し、それぞれの結果で多数決を取り、最も多い結果を出力結果とするモデル
アンサンブル学習

ランダムフォレストのように複数のモデルで学習させる方法。
バギング

全体から一部のデータを用いて複数のモデルを用いて学習する方法。複数のモデルを並列で作成。予測精度が低い。学習に時間がかからない。
ブースティング

全体から一部のデータを用いて複数のモデルを用いて学習する方法。複数のモデルを逐次的に作成。作成するモデルは前回のモデルの誤認識を優先的に正しく分類できるように学習する。学習に時間がかかる。予測精度が高い。
勾配ブースティング

複数の決定木の作成にブースディングを用いたモデル
ニューラルネットワーク

人間の脳の中の構造を模したアルゴリズム
単純パーセプトロン

複数の特徴量(入力)を受け取り、1つの値を出力する単純なニューラルネットワークのモデル
活性化関数

入力層⇔隠れ層⇔出力層の層間をどのように電気信号を伝播させるかを調整する関数
多層パーセプトロン

単純パーセプトロンに層を追加したモデル。非線形分類も行う事が可能。
誤差逆伝播法

予測値と実測値との誤差をネットワークにフィードバックするアルゴリズム
ブースティング・SVM

学習するデータ数が少ない場合、ニューラルネットワークとブースティング・SVMはどちらが優れていたか。
自己回帰モデル

時系列データの回帰問題に適用される手法
ベクトル自己回帰モデル

時系列データの入力が複数の場合の回帰モデル
k-means法

元のデータからグループ構造を見つけだしk個のグルーブに分類する方法
ウォード法

データをグループ分けした上で、そこからさらに各クラスタを一つのグループにまとめていって一つの階層構造(樹形図)を作る方法。凝集型クラスタリングの方法。
デンドグラム

ウォード法を用いて作成した樹形図
主成分分析(PCA)

データの特徴量間の関係性、すなわち相関を分析することでデータの構造をつかむ方法
主成分

主成分分析により相関を持つ多数の特徴量から、相関の少ない特徴量へと次元削減し、得られた少数の特徴量。
強調フィルタリング

ECサイト等のユーザの購買履歴をもとに好みを分析し、関心がありそうな商品をお勧めするレコメンドシステムに用いられる手法
コールドスタート問題

ある程度の参考データがないとレコメンドシステムが機能しないこと
コンテンツベースフィルタリング

商品側に特徴量を付与し、特徴が似ている商品をユーザにお勧めする手法
トピックモデル

1つのグループに分類するk-meansとは異なり、複数のクラスタにデータを分類するモデル
潜在的ディリクレ配分法(LDA)

トピックモデルの代表的な手法
バンディットアルゴリズム

強化学習において報酬を最大にする為の考え方、「活用」と「探索」のバランスを取る為のアルゴリズム
ε-greedy方策

基本は報酬が最大となる行動(活用)をするが、一定の確率(ε)で探索を行うバンディットアルゴリズム
方策

ある状態からとりうる行動の選択肢、およびその選択肢をどう決定するかの戦略
マルコフ性

現在の状態Stから将来の状態St+1に繊維する確率は、現在の状態Stにのみ依存し、それより過去の状態には一切依存しないと仮定すること
マルコフ決定過程

強化学習による状態の繊維にマルコフ性を仮定したモデル
行動価値関数

行動に対する価値を表す関数。単純に価値関数(Q値)とも呼ばれる。
Q学習、SARSA

Q値を最適化する2つの手法
方策勾配法

ロボット制御など取りえる行動の選択肢が多い分野に活用される、直接最適な方策を見つけ出す方法
REINFORCE

AlphaGoにも活用された方策勾配法ベースの手法
Actor-Critic

価値関数ベースと方策勾配ベースの考え方を組み合わせた手法。行動を決める行動器と方策を評価する評価器からなり立っている。
A3C

Actor-Criticの応用手法
交差検証

データの予測をする際に手元にあるデータを学習用のデータと評価用のデータに分割して評価すること
ホールドアウト検証

事前に訓練データとテストデータにデータを分割する交差検証。データ数が多いケースによく使用される。
k-分割交差検証

訓練データとテストデータの分割を複数回行い、それぞれで学習・評価を行う交差検証。データ数が少ない場合によく利用される。
検証データ

訓練データをさらに学習用と評価用にデータを分割した際の評価用データ
混同行列

予測値と実測値の正負の組み合わせを表で表したもの
正解率

全データ中、どれだけ予測が当たったのかの割合
適合率

予測が正の中で、実際に正であったものの割合
再現率

実際に正であるもの中で、正だと予測できた割合
F値

適合率と再現率の調和平均
真陽性(TP)

混同行列において、正値と予測した値が実際に正値だったこと
偽陰性(FN)

混同行列において、負値と予測した値が実際は正値だったこと
偽陽性(FP)

混同行列において、正値と予測した値が実際は負値だったこと
真陰性(TN)

混同行列において、負値と予測した値が実際に負値だったこと
過学習(オーバーフィッティング)

訓練データの予測正解率は高いが、テストデータの正解率は低くなってしまうモデル。ディープラーニングは複雑な関数を表現することが可能な為、学習しすぎると陥りやすい。
正則化

学習の際に用いる式に項を追加し、取りうる重みの値の範囲を制限し、過度に重みが訓練データに対してのみ調整されるのを防ぐ役割
L1正則化(ラッソ回帰)

一部のパラメータの値をゼロにして、特徴選択を行う正則化方法
L2正則化(リッジ回帰)

パラメータの大きさに応じてゼロに近づけることで汎化された滑らかなモデルを得る正則化方法
Elastic Net

ラッソ回帰とリッジ回帰を組み合わせた手法
ROC曲線

データの予測確立の正確さを定量化し図に表したもの。縦軸にTPR、横軸にFPRを取る。
AUC

ROC曲線の面積を求めて得られる定量化した予測確立の正確さ
オッカムの剃刀

「ある事柄を説明するためには、必要以上に多くを仮定するべきではない」という指針
赤池情報量基準(AIC)

解きたいタスクに対して実際にモデルをどれくらい複雑にすれば良いのか判断する為の指標
ディープラーニング

簡単にいうと隠れ層を増やしたニューラルネットワーク。人工知能の研究分野を示す。
ディープニューラルネットワーク

ディープラーニングを用いたニューラルネットワークのモデル。
勾配消失問題

誤差逆伝播法によって予測値と実測値の誤差を入力層にフィードバックする際に、層が多いと正しく反映されなくなる問題。(原因：活性化関数:シグモイド関数の微分)
ジェフリー・ヒントン

2006年に勾配消失問題を解決する手法(オートエンコーダ)を提唱した人物。
オートエンコーダ(自己符号化器)

可視層と出力層の2層からなるネットワーク。勾配消失問題を解決するネットワーク。出力が入力と同じものに近づくことを目指して学習。教師なし学習。
可視層

オートエンコーダの入力層と出力層がセットになった層
エンコード

オートエンコーダにおいて、入力層から隠れ層にデータを圧縮する処理
デコード

オートエンコーダにおいて、隠れ層から出力層にデータを復元する処理
積層オートエンコーダ(ディープオートエンコーダ)

複数のオートエンコーダを積み重ねる手法。積み重ねる場合、1つ目のオートエンコーダの隠れ層が次のオートエンコーダの可視層になる。
事前学習

積層オートエンコーダを用いて順番に学習していく手法
ファインチューニング

積層オートエンコーダの最後にラベル出力用の関数(分類:ロジスティック回帰層、回帰: 線形回帰層)を足して教師あり学習を行うこと。
ムーアの法則

「半導体の性能と集積は、18カ月ごとに2倍になる」という経験則の通称
テンソル

多次元の配列として表現できるもの(行列やベクトル)
GPGPU

画像以外の目的での使用に最適化されたGPU
NVIDIA社(エヌビディア)

ディープラーニング向けのGPUの開発をリードしている会社
tanh(ハイボリックタンジェント)関数

勾配消失問題にある程度対応できていた関数の一つで、シグモイド関数を線形変換した関数。-1から1の範囲を取る。微分するとピーク値が1を取る。
ReLU関数

この関数を微分するとxが0より大きい限り、常に微分値は1が得られる関数。xが0以下の場合必ず微分値が0になるのが欠点。y=max(0, x)
Leaky ReLU関数

ReLU関数の派生系。x<0の微分値に対してわずかな傾きを表現することが可能な関数
勾配降下法

予測値と実測値との誤差(誤差関数)が最小となる最適なパラメータを求める方法。誤差関数は多次元にわたる事が多いので、2次関数のように簡単に微分を求め最小値を求める事は不可能。なので、アルゴリズムを用いて勾配に沿うように微分を行い最小値を探す方法。
学習率

勾配降下法で、どのくらいの間隔で勾配を降りていくかを定義するハイパーバラメータ
局所最適解

勾配降下法で見せかけの最適解を最小値と判断すること
大域最適解

勾配降下法で本当の最適解を最小値と判断すること
鞍点

ある次元から見れば極小であるものの、別の次元から見れば極大となってしまうこと。
プラトー

勾配降下法で鞍点付近に陥り、停留状態になってしまうこと。
モーメンタム

1990年代に提唱された鞍点問題に対応する手法。最適化の進行方向に学習を加速することで停留を防ぐ。
Adagrad、Adadelta、RMSprop、Adam、AdaBound、AMSBound

モーメンタムよりさらに効率的に鞍点問題を防ぐ手法。古い順に6個。
ドロップアウト

ディープラーニングにおいて過学習を防ぐ為のテクニックの一つ。学習毎にランダムでニューロンを除外。毎回違うネットワークで学習を行うことが可能。
エポック数

一つの訓練データを何回繰り返して学習させるか」の数のこと
早期終了(early stopping)

学習を行う回数が増えるにつれて訓練データに対する誤差関数は最小化していくが、テストデータの誤差は大きくなっていく事象を防ぐ為に、学習を早めに打ち切る事。
ノーフリーランチ定理

「あらゆる問題で性能の良い汎用最適化戦略は理論上不可能」であることを示す定理
二重降下現象

勾配降下法において、一度テストデータに対する誤差が増えた後、再度誤差が減っていく現象
正規化

データ全体のスケールを調整する(合わせる)処理。例:各特徴量の値を0～1の範囲に変換する
標準化

各特徴量の平均を0、分散を1にする正規化手法。各特徴量の分散をそろえることで、特徴量の動きに対する感度を平等にみる事が可能。
白色化

各特徴量を無相関化したうえで標準化する正規化手法。計算コストが高い。
Xavier(ザビエル)

シグモイド関数の重みの初期値を決める手法。乱数にネットワークの大きさに合わせた適当な係数をかける。

誤差逆伝播により正規化(標準化)したデータの分布が崩れてしまい、データがばらつき勾配消失問題が起こりやすくなる事を防ぐ為に、重みの初期値を工夫する仕組み
He

ReLU関数の重みの初期値を決める手法。

誤差逆伝播により正規化(標準化)したデータの分布が崩れてしまい、データがばらつき勾配消失問題が起こりやすくなる事を防ぐ為に、重みの初期値を工夫する仕組み
バッチ正規化

各層で伝播してきたデータに、活性化関数をかける前に正規化を行う手法。学習の効率化だけはなく、過学習しにくくなる。
コンペティション

競技、競争
グレースケール化

画像データの前処理画像で、カラー画像を濃淡画像に変換して計算量を削減する手法。
平滑化

画像データの前処理画像で、周辺の値を用いてノイズを滑らかにして細かいノイズの影響を除去する手法。
ヒストグラム平坦化

画像データの前処理画像で、画素値の分布が偏っている所を平坦化して、画像のコントラスト(濃淡比)を調整する手法。
リンク関数

モデルの推定を行えるように累積確率を変換するためのもの
畳み込みニューラルネットワーク(CNN)

人間が持つ視覚野の神経細胞の二つの働きを模してみようという発想
単純型細胞(S細胞)

画像の濃淡パターン(特徴)を検出する細胞
複雑型細胞(C細胞)

特徴の位置が変動しても同一の特徴であるとみなす細胞
ネオコグニトロン

福島邦彦らによって人間の持つS細胞、C細胞の働きを最初に組み込んだモデル。Ｓ細胞とＣ細胞を交互に複数組み合わせたニューラルネットワーク。
LeNet

1998年にヤン・ルカンによって考えられた、畳み込み層とプーリング層(またはサンプリング層)の2種類の層を複数組み合わせた構造をするモデル。誤差修正には誤差逆伝播法を用いている。

畳み込み層は、S細胞層の働き。プーリング層は、C細胞の働き。
add-if silent

誤差修正に微分(勾配計算)を用いない計算方法。ネオコグニトロンで使用されている。
畳み込み層

フィルタ(またはカーネル)を用いて画像から特徴を抽出する操作を行う層。画像のズレに対する頑健性を持つ。

CNNでは、それぞれのフィルタをどういった値にすればいいかを学習してくことになる。このフィルタの各値が通常のニューラルネットワークで言うところの重みになる。
プーリング層

画像サイズを決められたルールに従って小さくする層。画像のズレに対する頑健性を持つ。
ダウンサンプリング(サブサンプリング)

画像サイズを決められたルールに従って小さくする処理。
最大値プーリング

ダウンサンプリングの一つにある小領域毎の最大値を抽出する処理
平均値プーリング

ダウンサンプリングの一つにある小領域毎の平均値を抽出する処理
特徴マップ

畳み込み処理によって抽出された画像の特徴情報。
全結合層

CNN(LeNet)では、畳み込み層・プーリング層を繰り返した後、特徴を2次元から1次元に変換する為、通常のニューラルネットワークと同じ隠れ層、出力層に接続する。
Global Average Pooling

最近のCNNでは全結合層を用いず、特徴マップの平均値を1つのユニット(ニューロン)の値にする処理。
Cutout、Random Erasing

画像の一部分を遮蔽したようなデータを疑似的に生成する手法2つ。

画像認識の学習に必要なデータを手元にある画像から疑似的に作成する手法の一つ。
Mixup

2枚の画像を合成し存在しない画像を疑似的に生成する手法。

画像認識の学習に必要なデータを手元にある画像から疑似的に作成する手法の一つ。
CutMix

CutoutとMixupを組み合わせて画像を生成する手法。

認識の学習に必要なデータを手元にある画像から疑似的に作成する手法の一つ。
AlexNet

2012年の画像認識の制度を競うコンペティション(ILSVRC)で圧倒的な制度を誇ったモデル。
VGG

ネットワーク構造の設計を単純化した手法。畳み込み層のカーネルサイズを3X3に統一し、プーリングを行った次の畳み込み層からカーネル数を2倍にするという基本設計を採用。畳み込み層とプーリング層の塊を16層まで積層。
GoogLeNet

畳み込み層とプーリング層の層を増やすだけでなく、Inceptionモジュールを導入して観点の異なる特徴量を抽出することを可能としたモデル。2014年のILSVRCにて優勝。
Skipconnection

層が20以上の「超」深層ネットワークを実現する為に考えられた、「層を飛び越えた結合」の方法。

層が10～20程度の深さなら問題ないが、それ以上となると識別制度が落ちる問題に直面。
ResNet

Skipconnectionの結合方法が導入された超深層ネットワークのモデル。2015年のILSVRCで優勝。
MobileNet

モバイル端末などのメモリ量が限られている環境でも利用できるように畳み込み層のパラメータ数を削減するモデル。
Depthwise Separable Convolution(深さ方向に分離可能な畳み込み)

通常の畳み込み処理と比べて計算量を1/8程度に削減できる畳み込み処理の代わりに使用される方法。入力特徴マップの空間方向とチャネル方向に対して独立に特徴量を抽出する処理。

MobileNetで使用。チャネル：表面。空間：奥行（深さ）
畳み込み処理

入力特徴マップの空間方向とチャネル方向の両方向に対しての積和の処理を行い、特徴量を抽出する一般的な処理。

チャネル：表面。空間：奥行（深さ）
Depthwise Convolution

Depthwise Separable Convolutionにおいて、チャネル毎の畳み込み処理。
Pointwise Convolution

Depthwise Separable Convolutionにおいて、同一位置毎の畳み込み処理。1x1の畳み込み処理。
HWNK^2M (縦*横*ニューロン数*フィルターサイズ^2*出力チャネル数)

通常の畳み込み処理の計算量
HWNK^2 + HWNM (縦*横*ニューロン数*フィルターサイズ^2 + 縦*横*ニューロン数*出力チャネル数)

Depthwise Separable Convolutionの計算量
転移学習

既に学習済みのネットワークに、新たに独自の層を追加して新しいネットワークを構築し最終層の結合のみ学習する方法。
ファインチューニング

転移学習により付け足した層だけではなく、ネットワーク全体を学習する方法。
生成モデル

画像のデータセットの分布を推測し、その分布に基づいて元の画像と似たような画像データを生成するモデル。
深層生成モデル

ディープラーニングを用いた生成モデルのこと。
変分オートエンコーダ(VAE)

オートエンコーダを活用してデータ生成する手法。従来のオートエンコーダとの違いは、隠れ層では入力データを圧縮表現するのではなく、統計分布(平均と分散で表現)に変換して学習を行う。出力層にはこの統計分布からランダムに選んだデータを元にデータを生成する。
敵対的性ネットワーク(GAN)

画像生成用のネットワークと画像判定用のネットワークを競い合わせて、最終的に本物に近い画像を生成するネットワーク。

ディープニューラルネットワークを採用。
ジェネレータ

GANのネットワークの一つ。ランダムなベクトルを入力とし、画像を生成し出力するネットワーク。
ディスクリミネータ

GANのネットワークの一つ。画像を入力とし、その画像が本物か(ジェネレータによって生成された)偽物かを予測して出力するネットワーク。
DCGAN(Deep Convolution GAN)

GANに畳み込みニューラルネットワークを採用したもの。高解像度な画像の生成を可能にする。
Pix2Pix

GANとは異なり、画像データを元に別の画像を生成し、この元の画像データと変換した画像のペアが本物かどうかを予測する手法。ただし、事前にペア画像の準備が必要。

昼の画像を夜の画像に変換したり、線画にカラー画像に変換可能。輪郭があっている画像に対して変換可能。
Cycle GAN

画像データを変換し、再度元の画像に変換する。その時に、通常のGANのように本物か偽物かを予測し、かつ元の画像と彩度変換した画像が一致するように学習を行う。画像のペアを必要としない生成方法。

外見的特徴の変換を行うことが可能。(元の画像の形状や位置が大きく異なる画像を生成可能)
画像識別タスク

入力画像に対してその画像に移る代表的な物体クラスの名称を出力するタスク。正確には確信度を出力。
SENet(Squeeze-and-Excitation Networks)

畳み込み層が出力した特徴マップに重みづけするAttention機構を導入したモデル。2017年にILSVRCに優勝。
2段階モデル

大まかな物体の位置を特定した後、その物体クラスを識別する物体検出モデルのこと。R-CNNやFPNが該当。
1段階モデル

位置の特定とクラスの識別を同時に行う物体検出モデルのこと。処理を単純化でき、高速な処理を実現可能。YOLOやSSDが該当。
セグメンテーション

分類する
R-CNN

画像から物体候補領域をSelective Searchというセグメンテーションの方法で抽出し、CNNに学習させるモデル。最終判断はCNNでは行わずSVMによってクラス識別を行う。

2段階モデル
Fast R-CNN

R-CNNの構造を簡略化して、高速化されたモデル。物体候補領域をそれぞれCNNに学習されるのではなく、画像全体を一気に学習させて特徴マップを獲得することで高速化。特徴マップ上で物体候補領域を識別。
Faster R-CNN

物体候補領域を抽出処理をSelective SearchからRegion Proposal NetworkというCNNのモデルに置き換えて高速化させたR-CNN。

Region: 領域。Proposal: 提案。
YOLO(You Only Look Once)

出力層を工夫して入力画像の各位置における物体領域らしさと矩形領域を直接出力して処理の高速化に取り組んだ1段階モデル。
デフォルトボックス

SSDの学習で用いられ、各特徴マップに複数設定されるボックス。このボックスと正解ボックスの誤差をなくすように学習が行われる。
SSD

CNNの途中から領域単位で物体を出力し、物体検出を行う手法。
セグメンテーションタスク

画像の画素ごとに識別を行うタスク
セマンティックセグメンテーション

画像全体を対象とするセグメンテーションタスク。同一クラスの物体をひとまとめにするので、人物一人一人を分離することはできない。
インスタンスセグメンテーション

物体検出した領域を対象とするセグメンテーションタスク。切り取った物体に対してセグメンテーションを行うので、人物を一人一人分離可能。
パノプティックセグメンテーション

個々の物体をそれぞれ分離しつつ、道路や建物などはひとまとめにするセグメンテーションタスク。

パノプティック: パノラマ的な、全体を一目で見渡せる、総括的な
FCN(Fully Convolutional Network)

CNNをセマンティックセグメンテーションタスクに利用した方法。畳み込み層だけで構成されるモデル。最後の特徴マップは入力画像に対して小さい為、出力を入力画像サイズまで拡大して出力する。解像度があらいセグメンテーション。

一般のCNNは畳み込み層、プーリング層、全結合層を用いる
エンコーダ

SegNetのモデルにおける、特徴マップを徐々に小さくしていく部分
デコーダ

SegNetのモデルにおける、特徴マップを徐々に大きくしていく部分
SegNet

畳み込み層とプーリング層を繰り返し積層し小さくなった特徴マップを徐々に拡大する構造を採用した方法。エンコーダとデーコーダで構成され、エンコーダ側の最大値プーリングを記憶し、デコード側で記憶した位置以外の値を0にするこで、境界付近のセグメンテーション結果をぼやけにくいのが特徴。
U-Net

デコード側で特徴マップを拡大して畳み込み処理する際、エンコード側の特徴マップを同じサイズになるように切り出して利用するモデル。

X線画像(CT、MRIなど)の医療画像診断に用いられている。
フィルタ(またはカーネル)

畳み込み層で特徴マップを抽出するもの。
Dilated convolution(Atrous convolution)

セマンティックセグメンテーションでは、広い範囲の情報を集約することが重要になるが、カーネルサイズを大きくすると計算量と学習するパラメータが増えてしまう問題がある。この問題を解決する畳み込み処理。畳み込み演算する位置を2画素ずつ開けて行う。

Dilated: 拡張
PSPNet

エンコーダとデコーダの間にPyramid Pooling Moduleという複数の解像度で特徴を捉えるモジュールを追加したモデル。
DeepLab

Atrous convolutionを導入したモデル。
DeepLab V3+

SegNetやU-Netのようなエンコーダとデコーダの構造、PSPNetのような複数解像度の特徴を捉える機構を採用したモデル。
姿勢推定

人の頭や足、手などの関節位置を推定するタスク。
信頼度マップ

入力画像に対して各関節の位置を出力する画像
Open Pose

複数の人の骨格を同時に推定できるようにした手法。
Parts Affinity Fields

骨格間の位置関係を考慮した処理。Open Poseに導入。

Affinity: 相性、合成
マルチタスク

Faster R-CNNやYOLOなどの物体検出モデルは、物体クラスの識別と物体領域の位置検出を同時に行っている。このように複数のタスクを一つのモデルで対応すること。
Mask R-CNN

Faster R-CNNによる物体検出だけでなく、セグメンテーションも同時に行うマルチタスクモデル。ここでいうセグメンテーションは物体検出した領域に対して行うので、インスタンスセグメンテーション。
音声

空気の振動が波上に人間の耳に伝わるもの
A-D変換(Analog to Digital Conversion)

アナログデータをPC上で扱う為にデジタルデータに変換する処理
パルス符号変調(PCM)

音声データをアナログからデジタルに変換する処理。音声を標本化→量子化→符号化の3ステップでデジタルデータに変換している。
スペクトル

光や信号などの波を成分に分解し、成分ごとの大小(強度)を見やすく配列したもの
高速フーリエ変換(FFT)

非常に短い時間ごとに周波数解析を高速に行うことができる手法。
周波数スペクトル

音声信号がFFTによって変換されたスペクトル
高さ、長さ、強さ、音色

音が持つ4つの属性
包絡(ほうらく)

曲線群のすべてに接して、しかもその接点の軌跡となる曲線のこと。
スペクトル包絡

「音色」の違い。周波数スペクトルにおけるスペクトル上の緩やかな変動のこと。
メル周波数ケプストラム係数(MFCC)

スペクトル包絡を求める為のデファクトスタンダードの手法。ここから得られる係数列が音色に関する特徴量となる。
フォルマント

スペクトル包絡を求めるといくつかの周波数でピーク(予測した周波数の波の中で山になっている箇所)を迎えること。
フォルマント周波数

フォルマントがある周波数
韻音

言語によらず人間が発生する区別可能な音
音素

言語ごとに区別される音の最小単位　※英語の音声記号
隠れマルコフモデル(HMM)

あらかじめ定義された単語とあらかじめ学習した音素列の対応辞書により音声認識を行うモデル。
n-gram (nは並べる単位の個数)

単語や文字、音声などを単位として扱い、その単位を複数個並べたものとして表現した際の呼び方。
ユニグラム(uni-gram)

1文字単位で文字列を切り取ること。
バイグラム(bi-gram)

2文字単位で文字列を切り取ること。
トライグラム(tri-gram)

3文字単位で文字列を切り取ること。
Bag-of-Words(BoW)

複数の文や文章の中に登場する単語の出現回数から文や文章の内容を推測するモデル。その際、単語の出現順序は考慮しない。
Box-of-n-grams

出現順序も失わないように考えられたBoWとn-gramを組み合わせた手法。
ワンホットベクトル(one-hot vector)

単語をコンピュータで扱う為に数値変換する手法の一つ。各単語に異なる整数値を順位割り当てID化し、このIDに相当するベクトルの次元の値だけが1でそれ以外を全て0とする変換方法。
TF-IDF(Term Frequency-Inverse Document Frequeny)

1文書内での出現回数が多く、出現する文書の数が少ない単語ほど値が大きくなる為、値が大きいほど単語の重要度が高いと推測できる手法。TFとIDFを掛け合わせたもの。
TF(Term Frequency)

単語の頻度を文書内の全単語数で割ったもの。
IDF(Inverse Document Frequeny)

ある単語が出現する文書の数を全文書数で割ったものの逆数をとり、対数を取ったもの。
局所表現

ワンホットベクトルのようにベクトルの次元数が多く、単語同士の意味の近さを考慮することができない表現方法。
分散表現(または単語埋め込み)

情報が密であり(値が0である次元が少ない)、ベクトルの次元数が低く、ベクトル間の距離や位置関係から単語の意味を考慮することが可能な表現方法。
word2vec

分散表現の代表的な手法。「単語の意味は、その周辺の単語によって決まる」という分布仮説を元に実現したライブラリ。

「王様」-「男」=「女王様」
スキップグラム

ある単語を与えて周辺の単語を予測するモデル。

word2vecの手法の一つ。
CBOW

周辺の単語を与えてある単語を予測するモデル。

word2vecの手法の一つ。
fastText

単語埋め込み(分散表現)を学習する際に単語を構成する部分文字列の情報も対象にすることにより、訓練データには存在しない単語に対しても学習が可能となり、活用する単語の語幹と語尾を分けて考慮することが可能になったライブラリ。世界中の157言語による訓練済みデータを提供。学習時間が短い。

word2vecの延長線上にあるライブラリ。
ELMo（Embeddings from Language Models)

複数の意味を持つ単語(多義性)や特定の単語と結びついて特別な意味を持つ単語(文脈から判断する必要がある単語)を考慮した分散表現を得る手法。
リカレントニューラルネットワーク(RNN)

言語モデルなどの自然言語処理などに使用されている過去に入力されたデータから次に来るデータを予測するネットワーク
BackPropagation Through-Time(BPTT)

RNNは過去の情報が現在の情報にどれだけ影響を与えているかを重みで表現し、その誤差を逆伝播し反映していくこと。
Connectionist Temporal Classification(CTC)

入力に音声、出力に音素を得れる音声認識のRNNにおいて、入力と出力の数が一致しない問題がある。その問題を解決する為に、出力候補に空文字(何も出力しないと同義)を追加し、出力長と正解長の違いに対応した手法。
入力/出力重み衝突

「今の時点では関係ないけれど、将来の時点では関係ある場合を考慮した重みをつなければいけない」というRNN固有の問題。
LSTM(Long Short-Term Memory)

RNNの問題である勾配消失問題や、RNN固有の入力、及び出力重み衝突問題を解決する為の手法。通常のＮＷで行う活性化関数による対応ではなく、隠れ層の構造を変えて対応した手法。
LSTMブロック

LSTMの隠れ層で用いられている機構。
CEC(Constant Error Carousel)

LSTMブロック機構の一つで、誤差を内部にとどめ、勾配消失を防ぐためのもの。
入力/出力ゲート

RNN固有の問題の入力/出力重み衝突問題を解決する為の機構

LSTMブロック内のゲートに存在
忘却ゲート

LSTMブロック内で誤差が過剰にセルに停留するのを防ぐためにリセットの役割を果たす機構

Mブロック内のゲートに存在
ダートマス会議

1956年に「人工知能」という言葉が初めて使われた会議の名前
ジョン・マッカーシー

1956年に「人工知能」という言葉が初めて使用した人物。
シンプルな制御プログラム

人工知能のレベル別：レベル1。すべての振る舞いを事前に決めておく。
古典的な人工知能

人工知能のレベル別：レベル2。探索・推論、知識データを利用して状況に応じた複雑な振る舞いをする。
機械学習を取り入れた人工知能

人工知能のレベル別：レベル3。非常に多くのサンプルデータをもとに入力と出力の関係を学習。
ディープラーニングを取り入れた人工知能

人工知能のレベル別：レベル4。学習対象の特徴量を自動的に学習する。
AI効果

人工知能で何か新しいことが実現され、その原理がわかってしまうと「それは単純な自動化であって知能とは関係ない」と結論づけてしまうこと。
エニアック(ENIAC)

1946年にペンシルバニア大学で誕生した世界初の汎用コンピュータ。
ロジック・セオリスト

ニューウェルとサイモンが作成した世界初の人工知能プログラム。数学の定理を自動的に証明するデモンストレーションを実施。
推論・探索の時代

1950年第後半～1960年代にかけて起きた第1次AIブーム。コンピュータによる「推論」や「探索」の研究が進んだ。
トイ・プロブレム

迷路や数学の定理の証明のような簡単な問題は解けても、複雑な現実問題は解けないという問題。
知識の時代

1980年代にかけて起きた第2次AIブーム。コンピュータに「知識」を入れると賢くなるというアプローチ。
エキスパートシステム

データベースに大量の専門知識を詰め込んだ実用的なシステム。
第五世代コンピュータ

第2次AIブームに日本政府によって推進された大型プロジェクト
機械学習・特徴表現学習の時代

2010年～にかけて起きた第3次AIブーム。大量のデータを用いて人工知能が自ら知識を獲得でき、学習できるようになった。
機械学習

ディープラーニングは何に含まれるか。
Bidirectional RNN(BiRNN)

時間情報の途中が欠けていてそれを予測したい場合に、過去と未来の両方向の情報を使って予測を行う方法。
sequence-to-sequence(Seq2Seq)

機械翻訳など、入力時系列と同じ時系列のデータに対して推測を行いたい問題に対処したモデル。
エンコーダ

最近RNNに限らず、入力されたデータを処理するニューラルネットワークのことを指す言葉。
デコーダ

最近RNNに限らず、出力を生成するニューラルネットワークのことを指す言葉。
Image Captioning(画像見出し)

入力した画像の説明文を生成するタスク
GRU(Gated Recurrent Unit)

LSTMを簡略化し、セルやゲートの最適化する為の計算量を少なくした手法。入力・出力・忘却ゲートの代わりをリセット・更新ゲートが果たしている。
Attention

どの時刻がどれだけ次の状態に影響するかを求める為に入力と出力の間に「時間の重み」をネットワークに組み込んだ機構。この機構を導入することで長文の正確な翻訳が可能となった。
トランスフォーマ(Transformer)

エンコーダとデコーダからRNNを排除し、代わりにself-Ａttention(自己注意機構)と呼ばれるネットワーク構造を採用しているネットワーク。RNNの問題である並列計算ができず、処理速度が遅い問題や、長文に対する遠く離れた単語間の関係が捉えきれないという問題を解決した新たなニューラルネットワーク。
Self-Attention(自己注意機構)

入力文内の単語間、または出力文内の単語間の関連度を計算し橋渡しする機構
Source-Target Attention

入力文(source)と出力文(target)の単語間の関連度を計算し橋渡しする機構
位置エンコーディング

Self-Attentionの単語間の関係を計算する際に、語順の情報が失われないように単語の出現位置に付加する固有の情報。
OpenAI

人工知能を研究する非営利団体
コーパス

新聞、雑誌、本などに書かれている中身や、文字化した話し言葉を大量に集め、コンピュータでいろいろ検索・分析して調べられるようにしたデータベースのこと
GPT(Generative Pre-Training)

OpenAIが開発した事前学習モデル。事前学習と同じモデルを転移学習で使って応用タスクを解くことが可能。トランスフォーマのデコーダと似た構造を持たネットワークを用いる。パラメータ数約1億。

word2vecやELMoも大規模なデータを使用して学習を行うが応用タスクは解けない。
評判分析

GPTの転移学習では与えられた文から極性(positive,negative,neutral)を判定する処理
言語理解タスク

2つの文書間の矛盾や類似性、文書の質問応答、文書のクラス分けといった、文書の内容や背景を正確に理解しないと高精度に解くことができないタスクのこと。
GLUE(General Language Understanding Evaluation)

様々な言語理解タスクをまとめたベンチマーク用のデータセット。
BERT(Bidirectional Encoder Representations from Transformers)

Google社が開発した事前学習モデル。事前学習と同じモデルを転移学習で使って応用タスクを解くことが可能。トランスフォーマのエンコーダを利用。パラメータ数約3億。

ecやELMoも大規模なデータを使用して学習を行うが応用タスクは解けない。
MLM(Masked Language Model)

BERTで行われる事前学習のタスクの一つ。文内の単語のうちの一部をマスクして見えないようにした状態で入力し、マスクされた単語を予測させるタスク。
NSP(Next Sentence Prediction)

BERTで行われる事前学習のタスクの一つ。2つの文をつなげて入力し、2つの文が連続する文かどうかを判定するタスク。
ALBERT、DistilBERT

自然言語モデルのパラメータ数が多くなり扱いが困難になってしまった問題に対し、タスクの制度を落とさずにパラメータ数を削減する工夫をした2つのモデル。
GPT-2

パラメータ数を増やしてより強力なモデルを目指したモデル。2019年2月にGPTの後継として登場。約15億のパラメータを持つ。
Megatron-LM

パラメータ数を増やしてより強力なモデルを目指したモデル。2019年9月にNVIDIAから約83億のパラメータを持つモデルが登場。
Turing-NLG

パラメータ数を増やしてより強力なモデルを目指したモデル。2020年2月にMicroSoftから約170億のパラメータを持つモデルが登場。
GPT-3

パラメータ数を増やしてより強力なモデルを目指したモデル。2020年5月にGPTの最新版の約1750億のパラメータを持つモデルが登場。
ViT(Vision Transformer)

トランスフォーマーが画像処理分野に持ち込まれ、CNNを使わない新たな事前学習モデル
深層強化学習

ディープラーニングと強化学習を組み合わせた手法。
DQN(Deep Q-Network)

DeepMind社が2013年に発表した、深層強化学習で最も基本的な手法。ゲームや実世界の画像をそのままディープニューラルネットワークの入力とし、行動候補の価値関数や法則を出力として学習するというアプローチ。
経験再生

DQNに組み込まれた学習方法の一つ。環境を探索する過程で得た経験データをリプレイバッファと呼ばれる機構に保存し、あるタイミングでその保存データをランダムに複数抜き出して深層学習を行う手法。
ターゲットネットワーク

過去に学習しているネットワークを教師のような役割をさせ、現在の入力データを学習させること。
Rainbow

DQNの拡張手法であるダブルDQNや、優先度付き経験再生、ディエリングネットワーク、カテゴリカルDQN、ノイジーネットワークの手法を全て組み合わせた手法。
内発的報酬

極めて難易度の高いゲームにおいても人間以上のパフォーマンスを発揮する報酬手法。
モンテカルロ木探索

複数回のゲーム木の展開によるランダムシュミレーションをもとに最も近似的にいい打ち手を決定する手法。2000年代後半に考案され、囲碁AIの分野で大きな結果を残した。
AlphaGo

2016年にDeepMind社が開発したゲームAI。世界的なトップ以後棋士であるイ・セドル九段に囲碁で勝利。モンテカルロ木探索と深層強化学習を組み合わせた手法。
AlphaGo Zero

人間の棋譜データを用いた教師あり学習は一切行わず、最初から自己対戦を行って得たデータのみで深層強化学習を行う手法。AlphaGoの発展系。
Alpha Zero

AlphaGoの完成形のゲームAI。以後以外にも将棋やチェスの分野でも人間を凌駕。
マルチエージェント強化学習

ゲーム中に操作するエージェントが味方や相手含め、複数存在する大人数のチーム対戦ゲームにおける強化学習。
OpenAI Five

2018年にOpenAIが発表した、多人数対戦型ゲーム「Dota2」において世界のトッププレイヤーで構成されるチームを打倒できるゲームAI
AlphaStar

2019年にDeepMind社が発表した、RTSというジャンルの対戦ゲーム「スタークラフト2」においてグランドマスターという称号を持つトッププレイヤーを打倒できるゲームAI
次元の呪い

実世界でのロボット制御など、連続値のセンサや制御信号のデータを一定の幅で離散かするだけでは状態や行動の数が指数的に増大する為学習が困難になる問題。
マニピュレーション

巧みな操作
状態表現学習

深層強化学習をロボット制御に応用する際に「状態」に関する良い特徴表現の学習を目指すこと。
ドメイン知識

深層強化学習を実ロボット制御に利用する際に、人間が環境やロボットに行わせたいタスクに関する事前知識
模倣学習

期待する動作を人間がロボットに対して教示して学習を行う。これらの教示データはデモンストレーションで作成。
デモンストレーション

ロボットを直接手で動かしたり、リモコンやVRインターフェイスにより遠隔操作したりして作成する強化学習の教示データ。
オフライン強化学習

エージェントが実際に試行錯誤して方策を獲得するのではなく、事前に何らかの方法で集められた固定データセットを元に学習を行うこと。
sim2real

強化学習用のデータを実環境から収集するのはコストが高い為、解きたいタスクの側面を切り出して計算機上でシミュレーションして学習を行う。そこで得られた方策を現実世界に転移して利用する設定。
リアリティギャップ

計算機上で再現されたシミュレーションと実環境で差異が生じることによって、学習した方策を実世界に転移した際に性能を低下させてしまう問題
ドメインランダマイゼーション

リアリティギャップに対応する為に、シミュレーション世界の各種パラメータをランダムに設定しアンサンブル学習を行う方法。
残差強化学習

従来のロボット制御で用いられてきた制御手法と、実際にロボットがタスクを行う環境における最適な方策の差分を強化学習によって学習させる方法
環境モデル

状態遷移や報酬を予測する関数
モデルフリー

エージェントが環境モデル(状態・行動・報酬などの情報)が利用できないモデルの強化学習アルゴリズム。

Q学習、方策勾配方
モデルベース

エージェントが環境モデル(状態・行動・報酬などの情報)が利用できるモデルの強化学習アルゴリズム。モデルフリーと比べてサンプル効率が向上。

Alpha Zero、世界モデル
世界モデル

「エージェントが、得られる情報を元に自身の周りの世界に関する予測モデルを学習して、方策の学習に活用する」枠組みの総称。
Grad-CAM

画像認識系のタスクを対象として、モデルの予測判断根拠を示すために「画像のどこを見ているか」を可視化する手法。モデルの学習に使用される勾配情報から出力値の影響が大きいピクセルに対して重みづけをする。画像が低解像度になる問題あり。
Guided Grad-CAM

Grad-CAMの画像認識を行う上で、画像が低解像度になってしまう問題を解消した手法。
Region Proposal Network

Faster R-CNNで導入された物体候補領域を検出するネットワーク
教師強制

RNNの学習において、すべての時刻の入力に対して教師データを用いて学習を行うこと。学習が安定し、収束が早い。
シグモイド関数

LSTMの忘却ゲートに使用される関数。
形態素解析

自然言語処理（NLP）の一部で、自然言語で書かれた文を言語上で意味を持つ最小単位(＝形態素)に分け、それぞれの品詞や変化などを判別すること
コサイン類似度

ベクトル空間モデルにおいて、文書同士を比較する際に用いられる類似度計算手法。word2vecで使用。
WaveNet

DeepMind社が開発した音声生成の為のディープラーニングのネットワーク。「Google Home」やAndroid端末に搭載される「Googleアシスタント」の合成音声として使用されている。