G検定Chapter2

Tomoya 2025年06月09日カード53 いいね0

特徴量と正解データのセットから構成され二つを結ぶ関係性を見出す学習

教師あり学習
学習データには正解ラベルがついておらずデータがもつ構造を見出すように学習する

教師なし学習
与えられた環境の中でエージェントが最大の報酬を得られるように最適な行動を学習する

強化学習
予測の手がかりとなる変数。

特徴量
１つのカテゴリーが１つの数値に対応するようにマッピングを行い文字列をダミー数値に変更する手法

ラベルエンコーディング
カテゴリごとに列を作り各行について１つの列項目だけを１、それ以外を０にするように文字列を数値化する手法

One-Hotエンコーディング
欠損している特徴量と他の特徴量の間に相関が強い時に非欠損部分を学習データとして利用し欠損部分に入るべき値を予測する手法

回帰補完
予測変数として採用する列を選別することとデータに前処理を施し、予測に効果的な形に加工するプロセス

特徴量エンジニアリング
平均が０、標準偏差が１になるようにデータを変換する操作

標準化
モデルを訓練データに合わせ込み過ぎてテストデータに対する学習済みモデルの精度が低くなる

過学習
過学習が起きやすいパターンに、特徴量が多すぎる場合や特徴量間の相関が強い場合、モデルが複雑な場合、（A)が不足している場合がある

学習データ
バイアスと（A)はトレードオフにある

バリアンス
１つ以上の説明と直線関数を使用して連続値である目的変数を予測する手法

線形回帰
説明変数が１つのみの線形回帰分析

単回帰分析
複数の説明変数から目的変数を予測する線形回帰問題

重回帰分析
重回帰分析を行う際に相関が高い説明変数同士を特徴量として組み合わせたときに互いに干渉しあって精度が悪くなる現象

多重共線性
損失関数にペナルティ項を加えた上で最小化することで過学習を抑制する手法

正則化
L1正則化を取り入れた線形回帰

ラッソ回帰
L2正則化を取り入れた線形回帰

リッジ回帰
パラメータの絶対値の和をペナルティ項にする手法

L１正則化
パラメータの二乗和をペナルティ項にする手法

L2正則化
線形回帰の考え方を用いてある事象が起きる可能性を求める手法

ロジスティック回帰分析
ロジスティック回帰分析は（A）問題を扱う

分類
ロジスティック回帰分析をマルチクラス分類に使うときは（A)関数を使用する

ソフトマックス
ロジスティックス回帰分析を二値分類に使うときは（A)関数を使用

シグモイド
ラッソ回帰とリッジ回帰を組み合わせた手法

Elastic Net
Support Vector Machineでの主なコンセプトは（A)最大化

マージン
SVMでのマージンとは、（A)と決定境界の距離を指す

サポートベクトル
少しずつことなる弱学習器を多数作りそれらを並列に学習させた後に全ての結果を統合するアンサンブル学習手法

バギング
多数の弱学習機を一つずつ逐次的に構築し新しい学習機を構築する際に前に構築された弱学習器の結果を利用するアンサンブル学習手法

ブースティング
代表的なバギング手法で少しずつ異なる決定木を多く構築しそれぞれの結果の多数決を採用する

ランダムフォレスト
代表的なブースティング手法

勾配ブースティング回帰木
各特徴量が独立して予測対象に影響を与えていると仮定しその上で事後確率が最も高いクラスに観測データを分類するモデル

ナイーブベイズ
ニューラルネットワークは入力層、（A)出力層の三層以上構造

隠れ層
正解のないデータから共通する特徴を持つグループに分類すること

クラスタリング
クラスタリングの代表手法でデータからグループ構造を見つけ出すためにデータをK個のクラスターに分ける手法

K-means
K-meansを代表とするあらかじめ決めておいた数のクラスターにデータを分類する分析を（A)分析といいう

非階層クラスター
データの集まりから最も近いデータを順番にまとめていき徐々にデータを整理し階層構造を作り出す分析手法

階層クラスター分析
高次元のデータを低次元のデータに変換すること

次元削減
（A)分析では全体のばらつきを最もよく表す（A)と呼ばれる変数を合成する

主成分
学習済みモデルを用いて未知のでーたに対して予測を行いますがこの未知データに対する予測能力をなんという？

汎化性能
学習データのうちモデルを学習させるためのデータ

訓練データ
学習データのうち学習後にモデルの汎化性能を定量的に評価するために使うデータ

テストデータ
データ分割の方法で一度に訓練データとテストデータに分割しデータ量が大きい時でも比較的に短時間で精度スコアを算出することができる方法

ホールドアウト法
データ分割法でデータをいくつかに分割し毎回違う部分をテストデータにして精度評価を分割回数行う方法

K-分割交差検証法
クラス分類の精度評価で基準に考えるもの

Confusion Matrix
精度スコアで正しく分類できたデータの割合

Accuracy
精度スコアで陽性判定の正確さを表すスコア

Precision
精度スコアで異常データの検出率を表すスコア

Recall
ハイパーパラメータを調整しその精度評価を行うために学習データ分割後に訓練データの方からさらに一定量の（A)を取り出す。ハイパラメータを変更するたびに訓練データから（A)を除いたデータで再学習を行い（A)を用いて精度評価を行う

バリデーションデータ
ハイパーパラメータの最適値を効率的に探す方法として（A)を用います。これはハイパーパラメータの組み合わせを総当たりで試し、ベスト精度を実現する組み合わせを探索する方法

グリッドサーチ
ハイパーパラメータ調整法としてハイパーパラメータの値の設定範囲および試行回数をあらかじめ指定し設定範囲内から指定された試行回数分ランダムに値の組み合わせを試行します

ランダムサーチ
ハイパーパラメータ最適化に使う手法で精度は高いが探索に時間がかかるのは？

グリッドサーチ
次の単語帳へ (3/6) テストする

よく頑張りました

暗記スタート

G検定Chapter2

暗記

ビューア設定