-
特徴量と正解データのセットから構成され二つを結ぶ関係性を見出す学習
教師あり学習
-
学習データには正解ラベルがついておらずデータがもつ構造を見出すように学習する
教師なし学習
-
与えられた環境の中でエージェントが最大の報酬を得られるように最適な行動を学習する
強化学習
-
予測の手がかりとなる変数。
特徴量
-
1つのカテゴリーが1つの数値に対応するようにマッピングを行い文字列をダミー数値に変更する手法
ラベルエンコーディング
-
カテゴリごとに列を作り各行について1つの列項目だけを1、それ以外を0にするように文字列を数値化する手法
One-Hotエンコーディング
-
欠損している特徴量と他の特徴量の間に相関が強い時に非欠損部分を学習データとして利用し欠損部分に入るべき値を予測する手法
回帰補完
-
予測変数として採用する列を選別することとデータに前処理を施し、予測に効果的な形に加工するプロセス
特徴量エンジニアリング
-
平均が0、標準偏差が1になるようにデータを変換する操作
標準化
-
モデルを訓練データに合わせ込み過ぎてテストデータに対する学習済みモデルの精度が低くなる
過学習
-
過学習が起きやすいパターンに、特徴量が多すぎる場合や特徴量間の相関が強い場合、モデルが複雑な場合、(A)が不足している場合がある
学習データ
-
バイアスと(A)はトレードオフにある
バリアンス
-
1つ以上の説明と直線関数を使用して連続値である目的変数を予測する手法
線形回帰
-
説明変数が1つのみの線形回帰分析
単回帰分析
-
複数の説明変数から目的変数を予測する線形回帰問題
重回帰分析
-
重回帰分析を行う際に相関が高い説明変数同士を特徴量として組み合わせたときに互いに干渉しあって精度が悪くなる現象
多重共線性
-
損失関数にペナルティ項を加えた上で最小化することで過学習を抑制する手法
正則化
-
L1正則化を取り入れた線形回帰
ラッソ回帰
-
L2正則化を取り入れた線形回帰
リッジ回帰
-
パラメータの絶対値の和をペナルティ項にする手法
L1正則化
-
パラメータの二乗和をペナルティ項にする手法
L2正則化
-
線形回帰の考え方を用いてある事象が起きる可能性を求める手法
ロジスティック回帰分析
-
ロジスティック回帰分析は(A)問題を扱う
分類
-
ロジスティック回帰分析をマルチクラス分類に使うときは(A)関数を使用する
ソフトマックス
-
ロジスティックス回帰分析を二値分類に使うときは(A)関数を使用
シグモイド
-
ラッソ回帰とリッジ回帰を組み合わせた手法
Elastic Net
-
Support Vector Machineでの主なコンセプトは(A)最大化
マージン
-
SVMでのマージンとは、(A)と決定境界の距離を指す
サポートベクトル
-
少しずつことなる弱学習器を多数作りそれらを並列に学習させた後に全ての結果を統合するアンサンブル学習手法
バギング
-
多数の弱学習機を一つずつ逐次的に構築し新しい学習機を構築する際に前に構築された弱学習器の結果を利用するアンサンブル学習手法
ブースティング
-
代表的なバギング手法で少しずつ異なる決定木を多く構築しそれぞれの結果の多数決を採用する
ランダムフォレスト
-
代表的なブースティング手法
勾配ブースティング回帰木
-
各特徴量が独立して予測対象に影響を与えていると仮定しその上で事後確率が最も高いクラスに観測データを分類するモデル
ナイーブベイズ
-
ニューラルネットワークは入力層、(A)出力層の三層以上構造
隠れ層
-
正解のないデータから共通する特徴を持つグループに分類すること
クラスタリング
-
クラスタリングの代表手法でデータからグループ構造を見つけ出すためにデータをK個のクラスターに分ける手法
K-means
-
K-meansを代表とするあらかじめ決めておいた数のクラスターにデータを分類する分析を(A)分析といいう
非階層クラスター
-
データの集まりから最も近いデータを順番にまとめていき徐々にデータを整理し階層構造を作り出す分析手法
階層クラスター分析
-
高次元のデータを低次元のデータに変換すること
次元削減
-
(A)分析では全体のばらつきを最もよく表す(A)と呼ばれる変数を合成する
主成分
-
学習済みモデルを用いて未知のでーたに対して予測を行いますがこの未知データに対する予測能力をなんという?
汎化性能
-
学習データのうちモデルを学習させるためのデータ
訓練データ
-
学習データのうち学習後にモデルの汎化性能を定量的に評価するために使うデータ
テストデータ
-
データ分割の方法で一度に訓練データとテストデータに分割しデータ量が大きい時でも比較的に短時間で精度スコアを算出することができる方法
ホールドアウト法
-
データ分割法でデータをいくつかに分割し毎回違う部分をテストデータにして精度評価を分割回数行う方法
K-分割交差検証法
-
クラス分類の精度評価で基準に考えるもの
Confusion Matrix
-
精度スコアで正しく分類できたデータの割合
Accuracy
-
精度スコアで陽性判定の正確さを表すスコア
Precision
-
精度スコアで異常データの検出率を表すスコア
Recall
-
ハイパーパラメータを調整しその精度評価を行うために学習データ分割後に訓練データの方からさらに一定量の(A)を取り出す。ハイパラメータを変更するたびに訓練データから(A)を除いたデータで再学習を行い(A)を用いて精度評価を行う
バリデーションデータ
-
ハイパーパラメータの最適値を効率的に探す方法として(A)を用います。これはハイパーパラメータの組み合わせを総当たりで試し、ベスト精度を実現する組み合わせを探索する方法
グリッドサーチ
-
ハイパーパラメータ調整法としてハイパーパラメータの値の設定範囲および試行回数をあらかじめ指定し設定範囲内から指定された試行回数分ランダムに値の組み合わせを試行します
ランダムサーチ
-
ハイパーパラメータ最適化に使う手法で精度は高いが探索に時間がかかるのは?
グリッドサーチ
-