-
特徴量と正解データのセットから構成され二つを結ぶ関係性を見出す学習教師あり学習
-
学習データには正解ラベルがついておらずデータがもつ構造を見出すように学習する教師なし学習
-
与えられた環境の中でエージェントが最大の報酬を得られるように最適な行動を学習する強化学習
-
予測の手がかりとなる変数。特徴量
-
1つのカテゴリーが1つの数値に対応するようにマッピングを行い文字列をダミー数値に変更する手法ラベルエンコーディング
-
カテゴリごとに列を作り各行について1つの列項目だけを1、それ以外を0にするように文字列を数値化する手法One-Hotエンコーディング
-
欠損している特徴量と他の特徴量の間に相関が強い時に非欠損部分を学習データとして利用し欠損部分に入るべき値を予測する手法回帰補完
-
予測変数として採用する列を選別することとデータに前処理を施し、予測に効果的な形に加工するプロセス特徴量エンジニアリング
-
平均が0、標準偏差が1になるようにデータを変換する操作標準化
-
モデルを訓練データに合わせ込み過ぎてテストデータに対する学習済みモデルの精度が低くなる過学習
-
過学習が起きやすいパターンに、特徴量が多すぎる場合や特徴量間の相関が強い場合、モデルが複雑な場合、(A)が不足している場合がある学習データ
-
バイアスと(A)はトレードオフにあるバリアンス
-
1つ以上の説明と直線関数を使用して連続値である目的変数を予測する手法線形回帰
-
説明変数が1つのみの線形回帰分析単回帰分析
-
複数の説明変数から目的変数を予測する線形回帰問題重回帰分析
-
重回帰分析を行う際に相関が高い説明変数同士を特徴量として組み合わせたときに互いに干渉しあって精度が悪くなる現象多重共線性
-
損失関数にペナルティ項を加えた上で最小化することで過学習を抑制する手法正則化
-
L1正則化を取り入れた線形回帰ラッソ回帰
-
L2正則化を取り入れた線形回帰リッジ回帰
-
パラメータの絶対値の和をペナルティ項にする手法L1正則化
-
パラメータの二乗和をペナルティ項にする手法L2正則化
-
線形回帰の考え方を用いてある事象が起きる可能性を求める手法ロジスティック回帰分析
-
ロジスティック回帰分析は(A)問題を扱う分類
-
ロジスティック回帰分析をマルチクラス分類に使うときは(A)関数を使用するソフトマックス
-
ロジスティックス回帰分析を二値分類に使うときは(A)関数を使用シグモイド
-
ラッソ回帰とリッジ回帰を組み合わせた手法Elastic Net
-
Support Vector Machineでの主なコンセプトは(A)最大化マージン
-
SVMでのマージンとは、(A)と決定境界の距離を指すサポートベクトル
-
少しずつことなる弱学習器を多数作りそれらを並列に学習させた後に全ての結果を統合するアンサンブル学習手法バギング
-
多数の弱学習機を一つずつ逐次的に構築し新しい学習機を構築する際に前に構築された弱学習器の結果を利用するアンサンブル学習手法ブースティング
-
代表的なバギング手法で少しずつ異なる決定木を多く構築しそれぞれの結果の多数決を採用するランダムフォレスト
-
代表的なブースティング手法勾配ブースティング回帰木
-
各特徴量が独立して予測対象に影響を与えていると仮定しその上で事後確率が最も高いクラスに観測データを分類するモデルナイーブベイズ
-
ニューラルネットワークは入力層、(A)出力層の三層以上構造隠れ層
-
正解のないデータから共通する特徴を持つグループに分類することクラスタリング
-
クラスタリングの代表手法でデータからグループ構造を見つけ出すためにデータをK個のクラスターに分ける手法K-means
-
K-meansを代表とするあらかじめ決めておいた数のクラスターにデータを分類する分析を(A)分析といいう非階層クラスター
-
データの集まりから最も近いデータを順番にまとめていき徐々にデータを整理し階層構造を作り出す分析手法階層クラスター分析
-
高次元のデータを低次元のデータに変換すること次元削減
-
(A)分析では全体のばらつきを最もよく表す(A)と呼ばれる変数を合成する主成分
-
学習済みモデルを用いて未知のでーたに対して予測を行いますがこの未知データに対する予測能力をなんという?汎化性能
-
学習データのうちモデルを学習させるためのデータ訓練データ
-
学習データのうち学習後にモデルの汎化性能を定量的に評価するために使うデータテストデータ
-
データ分割の方法で一度に訓練データとテストデータに分割しデータ量が大きい時でも比較的に短時間で精度スコアを算出することができる方法ホールドアウト法
-
データ分割法でデータをいくつかに分割し毎回違う部分をテストデータにして精度評価を分割回数行う方法K-分割交差検証法
-
クラス分類の精度評価で基準に考えるものConfusion Matrix
-
精度スコアで正しく分類できたデータの割合Accuracy
-
精度スコアで陽性判定の正確さを表すスコアPrecision
-
精度スコアで異常データの検出率を表すスコアRecall
-
ハイパーパラメータを調整しその精度評価を行うために学習データ分割後に訓練データの方からさらに一定量の(A)を取り出す。ハイパラメータを変更するたびに訓練データから(A)を除いたデータで再学習を行い(A)を用いて精度評価を行うバリデーションデータ
-
ハイパーパラメータの最適値を効率的に探す方法として(A)を用います。これはハイパーパラメータの組み合わせを総当たりで試し、ベスト精度を実現する組み合わせを探索する方法グリッドサーチ
-
ハイパーパラメータ調整法としてハイパーパラメータの値の設定範囲および試行回数をあらかじめ指定し設定範囲内から指定された試行回数分ランダムに値の組み合わせを試行しますランダムサーチ
-
ハイパーパラメータ最適化に使う手法で精度は高いが探索に時間がかかるのは?グリッドサーチ
ログイン