g検定2 / 出力

交差検証

訓練データとテストデータに分け評価すること
ホールドアウト検証

普通の交差検証
k-分割交差検証

全体のデータ数が少ない場合、訓練データとテストデータの分割を複数回行い、それで学習・評価を行う方法
混同行列
F値
過学習

訓練データの正解率を高めすぎてテストデータなどて高い正解率が出せないこと
正則化

学習の際に用いる式に項を追加することによって取りうる重みの範囲を制限し、過度に重みが訓練データに対してのみ調整されることを防ぐ役割をする
未学習

正則化しすぎて、全体の汎化性能が低下してしまうこと
L1正則化

1部のパラメータをゼロにすることで、特徴選択を行うことが出来る。
これを適用した手法をラッソ回帰という
L2正則化

パラメータの大きさに応じてゼロに近づけることで、汎化された滑らかなモデルを得ることが出来る。
これを適用した手法をリッジ回帰という
Elastic Net

ラッソ回帰とリッジ回帰を組みあわせた手法
ROC曲線
既存のニューラルネットワークの問題

誤差逆伝播法によって重みを更新しているが、層を深くしすぎると誤差が最後まで正しく反映されないという結果になってしまうのが問題であった。原因の一つとしてシグモイド関数の微分が掛け合わさって誤差が層を遡るごとに小さくなってしまうことがあった
オートエンコーダ

可視層と隠れ層の2そうからなるネットワーク。入出力層がセットになったもの。
入力層⇒隠れ層をエンコード
出力層⇒隠れ層をデコードという
積層オートエンコーダ

オートエンコーダを順番に学習させて、それを積み重ねていく
事前学習

オートエンコーダを順番に学習していく手順のこと
ファインチューニング

最後の重み調整。
入出力を用いた教師あり学習をおこなう
tanhx

シグモイド関数では、微分の最大値が0.25だったのに対しtanhでは最大値が1
しかし、ほとんどの所で1以下なので勾配消失問題を完全に防げる訳では無い
ReLu関数

微分が常に1だが0以下で微分も0なので上手くいかない時もある
Leakly ReLu関数
勾配降下法

モデルの予測値と実際の値との誤差を無くすことを考える時、誤差関数を考え、その微分を最小化する。
最小化にもパラメータが多次元なのでアルゴリズムを用いて求めていくがそこで用いられるのが勾配降下法である
勾配降下法の式

αを学習率といいどれだけ降りていくかを決めるもの
勾配降下法の問題

局所最適解に陥ってしまうと本当に見つけたい大域最適解にたどり着けない。これに対抗するためには学習率を大きくしてとびこえてしまうなど考えられる
ドロップアウト

過学習を回避するための方法の一つ
名前の通り、ランダムにニューロンを「ドロップアウト」させるもの。
ニューロンを除外することで、毎回形の異なるネットワークで学習を行います。
早期終了

学習が進むにつれて誤差関数の値は右肩上がりになっていくが、その上がりはじめを過学習の死はじめととらえ、その時点で学習を止めること。
最近の研究では、誤差が増えた後、再び減っていくという二重降下現象も確認されていているので慎重に決めなければならない
正規化

特徴量が大きく異なるとき、スケールを調整するなどデータ全体を調整する処理
一番簡単なもので各特徴量を0~1の範囲に変換する処理がある
標準化

各特徴量の平均を0、分散を1にする処理、標準化によってその特徴量は標準正規分布に変換される。
白色化

各特徴量を無相関化したうえで標準化するという手法。計算コストが高いので一般に標準化を用いる。
重みの初期値の工夫

シグモイド関数にはXavierの初期値、ReLu関数にはHeの初期値がよいとされている。
バッチ正規化

各層において活性化関数をかける前に伝搬してきたデータを正規化する。非常に強力で学習がうまくいきやすく、また過学習もしにくくなることが知られている。
CNN

畳み込みニューラルネットワーク
RGB画像は縦横だけでなく奥行きを持つ３次元となる。奥行きをチャンネルと呼び、この画像データに適した構造として考えられた。
ネオコグニトロン

・単純型細胞（S細胞）：画像の濃淡パターン（特徴）を検出する
・複雑型細胞（C細胞）：特徴の位置が変動しても同一の特徴であるとみなす
以上の二つの働きを組み込んだモデル
畳み込み処理

画像から特徴を抽出する操作で、画像とフィルタの値をそれぞれ掛け合わせて総和をとっていく処理。
この畳み込みの処理は、人間の視覚野が持つ局所受容野に対応しており、移動普遍性の獲得に貢献する。畳み込みによって位置のずれに強いモデルができる。
LeNet

畳み込み層とプーリング層（サブサンプリング層）の２種類の層を複数組み合わせた構造をしている
プーリング処理

プーリング処理は、画像サイズを決められたルールに従って小さくする。ダウンサンプリングやサブサンプリングとも呼ばれる。
ある小領域ごとに最大値を抽出する最大値プーリングや平均値プーリングがある。
画像のずれに対する頑健性が得られる
全結合層

畳み込み層およびプーリング層を複数組み合わせることによって深いネットワークができるが、いずれの層も、出力は画像のような２次元の特徴マップです。
全結合層では特徴を２次元から１次元に変換します。
データの拡張

同じ物体でも角度や大きさ、光の当たり方などで見え方が全く異なる。網羅的なデータを得ることは困難なので、手元にある画像から疑似的に別の画像を生成するというアプローチをとること。
AlexNet

畳み込み層とプーリング層をさらに深くしたもの
これ以降、より深いネットワークが続々と登場した。
VGGたGoogLeNetなどはILSVRCの記録を大きく塗り替えている。これらは１０から２０層程度の深さだが、さらに「超」深層になると識別精度が落ちるという問題に直面した。
ResNet

さらに深いネットワークを実現するために考えられたskip connectionと呼ばれる「層を飛び越えた結合」を加えたネットワーク
MobileNet

モバイル端末などの使用できるメモリ量が限られている環境でも利用できるよう、畳み込み層のパラメータ数を削減するモデル。
通常の畳み込みの代わりにDepthwise Separable Convolution を用いる。これによって通常の畳み込みよりも計算量が1/8倍になる
Neural Architecture Search (NAS)

CNNの構造には層数だけでなく、フィルタのサイズなど様々な決めなければいけないことがある。これを学習により準最適なネットワーク構造の探索を行うこと。
リカレントニューラルネットワークと深層強化学習を用いてネットワーク構造を探索していく。
NASNet

NASでResNetのResidual Blockのような塊にする工夫を導入したもの
MnasNet

NASでモバイル端末での計算量も考慮する工夫を導入したもの
転移学習

既存の学習済みモデルを、実際に予測をしたいタスクに合わせて何層か付け加えるなどし、その層だけ学習させること
生成モデル

画像のデータセットがどのような分布になっているかを推測し、その分布に基づいて、元の画像と似たような画像データを生成することを目的としたモデル
深層生成モデル

ディープラーニングを取り入れた生成モデル
変分オートエンコーダ(VAE)および敵対的生成ネットワーク(GAN)がとりわけ良い結果を残している。
画像が持つ潜在空間を学習し、それをベクトルとして表現する。潜在空間を得ることで、そこから新しい画像を生成することができるようになる。
変分オートエンコーダ

VAE
入力データを圧縮表現するのではなく、統計分布に変換します。すなわち、平均と分散で表現するように学習する。入力データはこの統計分布のある１つの点となる。
敵対的生成ネットワーク

GAN
ジェネレータとディスクリミネータという２種類のネットワークで構成されている。
ディスクリミネータによる予測結果はジェネレータにフィーでバックされる。ここで、ジェネレータはディスクリミネータが間違えるような画像を作るように学習していき、ディスクリミネータは偽物をきちんと見抜けるように学習をしていく。
この二つを組み合わせて最終的には本物と見分けがつかないような偽物を作り出すことを実現する
ジェネレータ

ランダムなベクトルを入力し、ディスクリミネータが間違うような画像を生成する
ディスクリミネータ

画像を入力とし、その画像が本物か偽物かを予測して出力する。
DCGAN

CNNを採用したGAN
Pix2Pix

ランダムなベクトルから精製したデータが本物かどうかを予測しているが、このベクトルの代わりにある画像データを入力し、別の画像に変換する処理としたもの。
昼の画像を夜の画像に変換したりする。
Wide ResNet

ResNetからカーネル数を増やしたもの
DenseNet

ResNetからSkip connectionを工夫したもの
SENet

畳み込み層が出力した特徴マップに重み付けするAttention機構を導入したもの
物体検出タスク

入力画像に写る物体クラスの識別とその物体の位置を特定するタスク。
物体の位置は矩形領域とし、その左上の座標と右下の座標を出力する
1段階モデル(物体検出)

位置の特定とクラスの識別を同時に行う
YOLOとその後継モデルやSSDが有名
2段階モデル(物体検出)

大まかな物体の位置を特定したあと、その物体クラスを識別する。R-CNNとその後継モデルやFPNが有名
R-CNN

物体検出タスク
画像から物体の候補領域をselective searchというセグメンテーションの方法で抽出
候補領域を一定の画像サイズにリサイズ後、cnnに入力する。最後はSVMによりクラス識別を行う
Fast R-CNN

物体検出タスク
物体候補領域をCNNに入力するのではなく、画像全体を入力して特徴マップを獲得することで高速化をする
Faster R-CNN

物体検出タスク
Selective Search は処理に時間がかかる。この処理をRegion Proposal NetworkというCNNモデルに置き換えて更なる高速化したもの。
YOLO

物体検出タスク
出力層を工夫して入力画像の各位置における物体領域らしさと矩形領域を直接出力する仕組みになっている
SSD

物体検出タスク
領域単位で物体らしさと矩形領域を出力する
CNN途中の特徴マップサイズは、徐々に小さくなり、最後には1/32程度になる。そのため小さな物体を検出しづらいがデフォルトボックスでその問題を解決している
セグメンテーションタスク

画像ごとに識別を行うタスクです。
セグメンテーションタスクには、画像全体を対象とするセマンティックセグメンテーション、物体検出した領域を対象とするインスタンスセグメンテーションがある。
道路や建物などをひとまとめにするパノプティックセグメンテーションもある。
FCN

セグメンテーションタスク
一般的なCNNは、畳み込み層とプーリング層、全結合層をもつが、FCNは、全結合層を用いず畳み込み層だけで構成するモデルを採用している。
出力を入力サイズまで拡大すると解像度が荒い。
SegNet

セグメンテーションタスク
畳み込み層とプーリング層を繰り返し積層することで小さくなった特徴マップを徐々に拡大する構造を採用した方法。小さくしていく部分をエンコーダ、大きくしていく部分をデコーダという
LIME

モデル全体を説明するのは困難でも、局所的に説明性を持たせていこうというアプローチ
LIMEは単純な線形モデルに近似することによって、予測の説明性を持たせようとしています。
ほかにもSHAPという手法があるが、いずれも単純なモデルによる近似を行い、特徴寄与度を測る。
オッサムの剃刀

モデルを複雑にすれば、難しいタスクも予測ができる可能性はあるわけですが、逆に言うと表現しなくても良いノイズ部分まで表現してしまう可能性もあります。
そこで、ある事柄を説明するためには、必要以上に多くを仮定するべきではないという指標を表すオッサムの剃刀に従うのが望ましいといえます。
赤池情報量基準

モデルをどれくらい複雑にすればいいのかは難しい問題ではありますが、この問いに対して一つの目安となるのが赤池情報基準（AIC）です
モデルの複雑さと予測精度のバランスを考えたものです。
AIC = -2logL + 2k