-
ベイズの定理
結果Bが起きる条件のもと、原因Aが起きる確率
標本を必ずしも必要しない推定方法。ある結果(例:この取り出された玉の色)から原因(例:どの袋から取り出されたものか)の確率を推定する際に利用される定理。
-
事後確率
ベイズの定理における、新しく更新された確率:P(A|B)を何と呼ぶか
結果Bが起きる条件のもと、原因Aが起きる確率
-
事前確率
ベイズの定理における、前もってわかっていた確率:P(A)を何と呼ぶか
-
尤度(ゆうど)
ベイズの定理における、原因Aが起きたと仮定した場合の結果Bの確率:P(B|A)を何と呼ぶか
-
周辺尤度
ベイズの定理における、考えうる全ての事象Bの確率:P(B)を何と呼ぶか
-
情報量
P(事象X)の対数を取って計算する
あるできごと(事象X)が起きた際、それがどれほど起こりにくいか(不確実性)を表す尺度。滅多に起きない事象ほど情報量は大きくなる(確率の大小と情報量の大小は逆転する)。
-
e(ネイピア数): nat、 2: bit
一般的に底は"2"が使用される
情報量の底に使用される単位2つ。
-
自己情報量(I)
I(x=1) = -logP(x=1)
ある事象(x=1)が決まった時のその情報の情報量
-
シャノンエントロピー H(x)
ある事象全体の不確実性(発生する事象の予測のしやすさ)を表現する際に使用する情報量。事象の不確実性が大きいほど値が大きくなる。
例:コインの裏表のように全てのP(事象)が等しい時に値を最も大きくしたい指標。添付画像のようなグラフを描く。
-
KLダイバージェンス
P, Q:確率分布、P(i):P分布の確率、Q(i):Q分布の確率
2つの確率分布がどの程度似ているかを表す尺度
-
量的変数
データには大きく2種類存在し、数量(観測値)で示されるデータのこと。
-
質的変数
データには大きく2種類存在し、カテゴリで示されるデータのこと。
-
名義尺度
質的変数の一つで、他と区分し分類する性質を持つデータ
例:男女、血液型、郵便番号
-
順序尺度
質的変数の一つで、順序には意味があるが、間隔には意味がない性質を持つデータ
例: 1位/2位/3位、1.好き、2.ふつう、3.嫌い
-
間隔尺度
目盛りが等間隔になっている性質を持つデータ。0は相対的な意味しか持たない。
例: 気温、知能指数
-
比例尺度
原点があり、間隔や比率に意味がある性質を持つデータ。0は絶対的な意味を持つ。
例:身長、速度
-
実験研究
研究対象に対して何らかの介入(投薬や治療など)を行い、その効果を検証するための研究デザインのこと。
-
観察研究
研究対象に対して介入(投薬や治療など)を行わなずに、観察によってデータを集めて解析を行う研究デザインのこと。
-
実験群
実験研究の対象となる被験者のうち、試験サンプル又は実験手順を受ける群のこと。
-
対照群
実験研究の対象となる被験者のうち、試験サンプル又は実験手順の効果があるのかを比較する為の実験影響を受けない群のこと。
-
実験計画
よい結果を得る為に最も効果的な実験を計画し、その実験で得られたデータに対して最適な解析手法を採択する手順のこと。
-
フィッシャーの3原則。
R.A. Fisherが確立した実験計画法に関しての3つの三原則のこと。
-
無作為化
フィッシャーの3原則の一つで、比較したい処理群をランダムに割り付けること。
-
反復
フィッシャーの3原則の一つで、一つの処理に対して少なくとも二回以上繰り返すこと。
-
局所管理
フィッシャーの3原則の一つで、実験をある程度細分化してブロックを構成すること。
-
度数分布表
データの大まかな分布を知るために、データをある幅ごとに区切ってその中に含まれるデータの個数を見るという方法。
-
クロス集計表
質的変数間の関連性を知るために、2つのカテゴリーに属するデータをそれぞれのカテゴリーで同時に分類し、その度数を集計した表。
-
棒グラフ
棒の高さで数量の大小を比較したい時に使用するグラフ
-
折れ線グラフ
時系列に沿ったデータの増減の変化を確認したい時に使用するグラフ
-
円グラフ
全体に対するデータの割合の大小を比較したい時に使用するグラフ
-
帯グラフ
データ全体の割合の比較を行う円グラフと異なり、グループ毎のデータの割合の比較を行いたい時に使用するグラフ。
-
積み上げ棒グラフ
複数のデータ群を積み上げた棒の高さで数量の大小を比較したい時に使用するグラフ。
-
レーダーチャート
複数の指標をまとめて比較したい時に使用するグラフ。
-
バブルチャート
3つのデータの関係性について、2次元のグラフで比較したい時に使用するグラフ。(散布図を構成するデータに加えて、それに関係するもう一つの量的なデータを加え、円の大きさで表すグラフ)
-
ローソク足
株やFxのように1秒間に沢山の取引が行われその振れ幅を表現する際に使用されるグラフで、陽線と陰線と二つの箱がり、始値>終値を陽線で表現し、始値<終値を陰線で表現する。
-
散布図
2変数間の相関関係を確認したい場合に使用するグラフ。
-
パレート図
度数の多い項目から順に並べた縦棒グラフに累積相対度数を表した折れ線グラフを図示した複合グラフ。品質管理や在庫管理等で用いられる。
-
複合グラフ
複数のデータを同時に観察する為に、棒グラフ+折れ線グラフのように複数のグラフを組み合わせたグラフ。
-
外れ値の影響を受けやすい
代表値の一つ平均値のデメリット。
-
全データの全容を把握しずらい。
外れ値の影響はうけにくい。
代表値の一つ中央値のデメリット。
-
四分位範囲(IQR)
第三四分位数-第一四分位数の範囲のこと。
-
四分位偏差
中央値の周りのデータのばらつきを確認したい時に使用する指標。四分位範囲(IQR)を2で割って算出。
-
箱ひげ図
複数のデータの分布を視覚的に確認したい場合に使用するグラフの一つ。グラフに5数要約が用いられる。
5数要約: 最小、最大、第一四分位、第二四分位(中央)、第三四分位のこと。
-
偏差値
(xi-E(X))/STD(X) × 10 + 50した値。試験結果の評価で利用される指標。
-
変動係数
単位の異なるデータのばらつきを相対的に比較する為の指標。標準偏差を平均値で割った値のことで、単位の異なるデータのばらつきや、平均値に対するデータとばらつきの関係を相対的に評価する際に用いる単位を持たない(=無次元の)数値。
-
共分散
共分散は、データの単位に影響を受けるので単に比較は行えないので注意
2 種類(2 変数)のデータの関係を示す指標。値が正であるときは、一方の値が増加するともう一方の値が増加する傾向(正の相関)。
-
相関係数
-1から1の値を取り、2 種類(2 変数)のデータの関係を単位の影響を受けずに示す指標。1に近いほど正の相関が強く、-1に近いほど負の相関が強い。0に近いほど無相関という。
相関とは2変数の関係が線形であるかを判断する為の指標であり、因果関係があるかを示す指標ではないことに注意。
-
基準化、又は標準化、又は正規化
平均が0、分散が1となるようにデータを変換すること。
-
確率
事象の起こりやすさを表す指標
-
排反事象
事象Aと事象Bの積事象が空事象(φ)の場合の事象
-
空事象(φで表す)
「存在しない」事象のこと。
-
公理
その他の命題を導きだすための前提として導入される最も基本的な仮定のこと。数学を解くうえで土台となる一番最初に決める前提。
-
定義
議論を進めるために人が勝手に作った取り決めを記した文章。
-
定理
公理から導き出され、定義された言葉のみで構成された正しいこ とが証明できる文章
-
相対エントロピー
KLダイバージェンスと同等の値のもの。
-