-
交差検証訓練データとテストデータに分け評価すること
-
ホールドアウト検証普通の交差検証
-
k-分割交差検証全体のデータ数が少ない場合、訓練データとテストデータの分割を複数回行い、それで学習・評価を行う方法
-
混同行列
-
F値
-
過学習訓練データの正解率を高めすぎてテストデータなどて高い正解率が出せないこと
-
正則化学習の際に用いる式に項を追加することによって取りうる重みの範囲を制限し、過度に重みが訓練データに対してのみ調整されることを防ぐ役割をする
-
未学習正則化しすぎて、全体の汎化性能が低下してしまうこと
-
L1正則化1部のパラメータをゼロにすることで、特徴選択を行うことが出来る。
これを適用した手法をラッソ回帰という -
L2正則化パラメータの大きさに応じてゼロに近づけることで、汎化された滑らかなモデルを得ることが出来る。
これを適用した手法をリッジ回帰という -
Elastic Netラッソ回帰とリッジ回帰を組みあわせた手法
-
ROC曲線
-
既存のニューラルネットワークの問題誤差逆伝播法によって重みを更新しているが、層を深くしすぎると誤差が最後まで正しく反映されないという結果になってしまうのが問題であった。原因の一つとしてシグモイド関数の微分が掛け合わさって誤差が層を遡るごとに小さくなってしまうことがあった
-
オートエンコーダ可視層と隠れ層の2そうからなるネットワーク。入出力層がセットになったもの。
入力層⇒隠れ層をエンコード
出力層⇒隠れ層をデコードという -
積層オートエンコーダオートエンコーダを順番に学習させて、それを積み重ねていく
-
事前学習オートエンコーダを順番に学習していく手順のこと
-
ファインチューニング最後の重み調整。
入出力を用いた教師あり学習をおこなう -
tanhxシグモイド関数では、微分の最大値が0.25だったのに対しtanhでは最大値が1
しかし、ほとんどの所で1以下なので勾配消失問題を完全に防げる訳では無い -
ReLu関数微分が常に1だが0以下で微分も0なので上手くいかない時もある
-
Leakly ReLu関数
-
勾配降下法モデルの予測値と実際の値との誤差を無くすことを考える時、誤差関数を考え、その微分を最小化する。
最小化にもパラメータが多次元なのでアルゴリズムを用いて求めていくがそこで用いられるのが勾配降下法である -
勾配降下法の式αを学習率といいどれだけ降りていくかを決めるもの
-
勾配降下法の問題局所最適解に陥ってしまうと本当に見つけたい大域最適解にたどり着けない。これに対抗するためには学習率を大きくしてとびこえてしまうなど考えられる
-
ドロップアウト過学習を回避するための方法の一つ
名前の通り、ランダムにニューロンを「ドロップアウト」させるもの。
ニューロンを除外することで、毎回形の異なるネットワークで学習を行います。 -
早期終了学習が進むにつれて誤差関数の値は右肩上がりになっていくが、その上がりはじめを過学習の死はじめととらえ、その時点で学習を止めること。
最近の研究では、誤差が増えた後、再び減っていくという二重降下現象も確認されていているので慎重に決めなければならない -
正規化特徴量が大きく異なるとき、スケールを調整するなどデータ全体を調整する処理
一番簡単なもので各特徴量を0~1の範囲に変換する処理がある -
標準化各特徴量の平均を0、分散を1にする処理、標準化によってその特徴量は標準正規分布に変換される。
-
白色化各特徴量を無相関化したうえで標準化するという手法。計算コストが高いので一般に標準化を用いる。
-
重みの初期値の工夫シグモイド関数にはXavierの初期値、ReLu関数にはHeの初期値がよいとされている。
-
バッチ正規化各層において活性化関数をかける前に伝搬してきたデータを正規化する。非常に強力で学習がうまくいきやすく、また過学習もしにくくなることが知られている。
-
CNN畳み込みニューラルネットワーク
RGB画像は縦横だけでなく奥行きを持つ3次元となる。奥行きをチャンネルと呼び、この画像データに適した構造として考えられた。 -
ネオコグニトロン・単純型細胞(S細胞):画像の濃淡パターン(特徴)を検出する
・複雑型細胞(C細胞):特徴の位置が変動しても同一の特徴であるとみなす
以上の二つの働きを組み込んだモデル -
畳み込み処理画像から特徴を抽出する操作で、画像とフィルタの値をそれぞれ掛け合わせて総和をとっていく処理。
この畳み込みの処理は、人間の視覚野が持つ局所受容野に対応しており、移動普遍性の獲得に貢献する。畳み込みによって位置のずれに強いモデルができる。 -
LeNet畳み込み層とプーリング層(サブサンプリング層)の2種類の層を複数組み合わせた構造をしている
-
プーリング処理プーリング処理は、画像サイズを決められたルールに従って小さくする。ダウンサンプリングやサブサンプリングとも呼ばれる。
ある小領域ごとに最大値を抽出する最大値プーリングや平均値プーリングがある。
画像のずれに対する頑健性が得られる -
全結合層畳み込み層およびプーリング層を複数組み合わせることによって深いネットワークができるが、いずれの層も、出力は画像のような2次元の特徴マップです。
全結合層では特徴を2次元から1次元に変換します。 -
データの拡張同じ物体でも角度や大きさ、光の当たり方などで見え方が全く異なる。網羅的なデータを得ることは困難なので、手元にある画像から疑似的に別の画像を生成するというアプローチをとること。
-
AlexNet畳み込み層とプーリング層をさらに深くしたもの
これ以降、より深いネットワークが続々と登場した。
VGGたGoogLeNetなどはILSVRCの記録を大きく塗り替えている。これらは10から20層程度の深さだが、さらに「超」深層になると識別精度が落ちるという問題に直面した。 -
ResNetさらに深いネットワークを実現するために考えられたskip connectionと呼ばれる「層を飛び越えた結合」を加えたネットワーク
-
MobileNetモバイル端末などの使用できるメモリ量が限られている環境でも利用できるよう、畳み込み層のパラメータ数を削減するモデル。
通常の畳み込みの代わりにDepthwise Separable Convolution を用いる。これによって通常の畳み込みよりも計算量が1/8倍になる -
Neural Architecture Search (NAS)CNNの構造には層数だけでなく、フィルタのサイズなど様々な決めなければいけないことがある。これを学習により準最適なネットワーク構造の探索を行うこと。
リカレントニューラルネットワークと深層強化学習を用いてネットワーク構造を探索していく。 -
NASNetNASでResNetのResidual Blockのような塊にする工夫を導入したもの
-
MnasNetNASでモバイル端末での計算量も考慮する工夫を導入したもの
-
転移学習既存の学習済みモデルを、実際に予測をしたいタスクに合わせて何層か付け加えるなどし、その層だけ学習させること
-
生成モデル画像のデータセットがどのような分布になっているかを推測し、その分布に基づいて、元の画像と似たような画像データを生成することを目的としたモデル
-
深層生成モデルディープラーニングを取り入れた生成モデル
変分オートエンコーダ(VAE)および敵対的生成ネットワーク(GAN)がとりわけ良い結果を残している。
画像が持つ潜在空間を学習し、それをベクトルとして表現する。潜在空間を得ることで、そこから新しい画像を生成することができるようになる。 -
変分オートエンコーダVAE
入力データを圧縮表現するのではなく、統計分布に変換します。すなわち、平均と分散で表現するように学習する。入力データはこの統計分布のある1つの点となる。 -
敵対的生成ネットワークGAN
ジェネレータとディスクリミネータという2種類のネットワークで構成されている。
ディスクリミネータによる予測結果はジェネレータにフィーでバックされる。ここで、ジェネレータはディスクリミネータが間違えるような画像を作るように学習していき、ディスクリミネータは偽物をきちんと見抜けるように学習をしていく。
この二つを組み合わせて最終的には本物と見分けがつかないような偽物を作り出すことを実現する -
ジェネレータランダムなベクトルを入力し、ディスクリミネータが間違うような画像を生成する
-
ディスクリミネータ画像を入力とし、その画像が本物か偽物かを予測して出力する。
-
DCGANCNNを採用したGAN
-
Pix2Pixランダムなベクトルから精製したデータが本物かどうかを予測しているが、このベクトルの代わりにある画像データを入力し、別の画像に変換する処理としたもの。
昼の画像を夜の画像に変換したりする。 -
Wide ResNetResNetからカーネル数を増やしたもの
-
DenseNetResNetからSkip connectionを工夫したもの
-
SENet畳み込み層が出力した特徴マップに重み付けするAttention機構を導入したもの
-
物体検出タスク入力画像に写る物体クラスの識別とその物体の位置を特定するタスク。
物体の位置は矩形領域とし、その左上の座標と右下の座標を出力する -
1段階モデル(物体検出)位置の特定とクラスの識別を同時に行う
YOLOとその後継モデルやSSDが有名 -
2段階モデル(物体検出)大まかな物体の位置を特定したあと、その物体クラスを識別する。R-CNNとその後継モデルやFPNが有名
-
R-CNN物体検出タスク
画像から物体の候補領域をselective searchというセグメンテーションの方法で抽出
候補領域を一定の画像サイズにリサイズ後、cnnに入力する。最後はSVMによりクラス識別を行う -
Fast R-CNN物体検出タスク
物体候補領域をCNNに入力するのではなく、画像全体を入力して特徴マップを獲得することで高速化をする -
Faster R-CNN物体検出タスク
Selective Search は処理に時間がかかる。この処理をRegion Proposal NetworkというCNNモデルに置き換えて更なる高速化したもの。 -
YOLO物体検出タスク
出力層を工夫して入力画像の各位置における物体領域らしさと矩形領域を直接出力する仕組みになっている -
SSD物体検出タスク
領域単位で物体らしさと矩形領域を出力する
CNN途中の特徴マップサイズは、徐々に小さくなり、最後には1/32程度になる。そのため小さな物体を検出しづらいがデフォルトボックスでその問題を解決している -
セグメンテーションタスク画像ごとに識別を行うタスクです。
セグメンテーションタスクには、画像全体を対象とするセマンティックセグメンテーション、物体検出した領域を対象とするインスタンスセグメンテーションがある。
道路や建物などをひとまとめにするパノプティックセグメンテーションもある。 -
FCNセグメンテーションタスク
一般的なCNNは、畳み込み層とプーリング層、全結合層をもつが、FCNは、全結合層を用いず畳み込み層だけで構成するモデルを採用している。
出力を入力サイズまで拡大すると解像度が荒い。 -
SegNetセグメンテーションタスク
畳み込み層とプーリング層を繰り返し積層することで小さくなった特徴マップを徐々に拡大する構造を採用した方法。小さくしていく部分をエンコーダ、大きくしていく部分をデコーダという -
LIMEモデル全体を説明するのは困難でも、局所的に説明性を持たせていこうというアプローチ
LIMEは単純な線形モデルに近似することによって、予測の説明性を持たせようとしています。
ほかにもSHAPという手法があるが、いずれも単純なモデルによる近似を行い、特徴寄与度を測る。 -
オッサムの剃刀モデルを複雑にすれば、難しいタスクも予測ができる可能性はあるわけですが、逆に言うと表現しなくても良いノイズ部分まで表現してしまう可能性もあります。
そこで、ある事柄を説明するためには、必要以上に多くを仮定するべきではないという指標を表すオッサムの剃刀に従うのが望ましいといえます。 -
赤池情報量基準モデルをどれくらい複雑にすればいいのかは難しい問題ではありますが、この問いに対して一つの目安となるのが赤池情報基準(AIC)です
モデルの複雑さと予測精度のバランスを考えたものです。
AIC = -2logL + 2k
ログイン