まりな 2024年08月17日 カード67 いいね0

広告

単語カード

  • データセットを K 個のブロック(fold)に分割し、K - 1 を訓練に、残りの 1 ブロックを評価用データに使用する方法を K 分割交差検証(K-fold cross-validation)とよぶ。 評価用データの選び方には K 通りあるが、このすべての場合についてモ デルの訓練および評価をし、それらの性能の平均値を取って最終的なモデルの性能とする。 なお、分類タスクの場合で は、ブロックごとに含まれるクラスの割合を等しくすることがしばしば行われる。これを( う )という。
    stratified k-fold CV
  • バイアス(b)の逆誤差計算の実装方法は?(勾配=dz)
    np.sum(dz, axis=0)
  • 入力xの逆誤差計算の実装方法は?
    np.matmul(dz, self.weights[-i-1].transpose())
  • 他クラス分類の損失計算
    E = −∑logy
  • マルチラベル問題の損失計算
    E = −∑∑(dlogy+(1-d)log(1-y))
  • 順序回帰問題の解き方。(A)として定式化し、出力ユニット数は(B)個で活性化関数はシグモイド関数、正解ラベルは(C)で与えて各ユニットの損失を最小化するように学習する。このとき各ユニット出力を2値化する閾値はハイパーパ ラメータである。クラス予測結果には2値化した各ユニット出力の合計を使う。
    2値分類問題 ・K−1・ハードラベル
  • ドロップアウトは正則化を実現する 1 つの手法である。 学習時に、各ユニットを( あ )的に 0 または 1 でマスクする。1 でマスクされたユニットのみで学習することで、モデルの自由度を強制的に減らす。 これによって、多数のパラメータを 持つモデルにおいて、過学習を防ぐことが期待できる。 また、各イタレーション毎にマスクするユニットを変えるため、 多数のサブネットワークを学習できる。 つまりドロップアウトを用いて学習したモデルは、多数のモデルを( い )したも のと見ることができる。
    1. ( あ )確率 ( い )アンサンブル
  • ドロップアウトのコスト関数の偏微分
    −tδI+wδ^2I^2+∑wδδII
  • つまり、ドロップアウトを用いた場合、( え )を正則化パラメータとみなした適応的な( お )をして いることと等価になる。
    (え)p(1−p)I^2 (お)L2正則化
  • 畳み込み層により、入力画像内の物体の回転に対する頑健性が得られるか?
  • 1. nn.Linear(in_features=? * ? * ?, out_features=120)
    out_channel, kernel_size, kernel_size
  • なんの式か。transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize(mean=(0.5, 0.5, 0.5), std=(0.5, 0.5, 0.5))] )
    入力画像は平均0.5,標準偏差0.5を用いた正規化が適用された状態でモデルへと入力される
  • BPTT法(Backpropagation through time) RNN をXXXに展開し、順伝搬型ネットワークに書き換えてYYY計算する
    時間方向 逆誤差伝播
  • RNN の学習において良く用いられる Teacher Forcing と呼ばれる手法の問題点
    評価時はデコーダーが出力した系列がデコーダーの入力となるため、評価時の分布と学習時の分布が異なる
  • Transformer のアーキテクチャの説明として、不適切な選択肢を 1 つ選べ。 1. Encoder の最終出力は Decoder の Multi-Head Attention に入力される 2. Encoder ・ Decoder は共に順伝播ネットワークを含んでいる 3. Decoder を構成する N 個の層は全て Positional Encoding の出力を入力として受け取る 4. Decoder では Masked Multi-Head Attention が使用されている
    3
  • Self-attention 層が畳み込み層やリカレント層と比較し優れている点として、不適切な選択肢を 1 つ選べ。 1. 一般的に、畳み込み層やリカレント層と比較して Self-attention 層は一層当たりの計算量が少ないため、モデルのス ケールアップが容易である 2. 自然言語のような時系列データを逐次的に処理する必要がないため、データの並列処理能力が向上した 3. 各単語に対応する隠れ層の直前の隠れ層全てが Self-attention によって参照されるため、離れた単語同士の依存関係を 
学習しやすい 4. 畳み込み層やリカレント層は固定長のシーケンスしか扱えなかったのに対し、Self-attention 層は可変長のシーケンス を扱える
    4
  • identity mapping の内側の層は( あ )を学習する
    入力xと、入出力の残差F(x)の対応
  • vision transformerはtransformerのXXXに相当する部分を含む
    エンコーダ
  • Vision Transformer のファインチューニングのポイント(MLP層をXXX、事前学習時とYYYを揃える、パッチ枚数変化に対して事前学習した位置エンコーディング を 2次元補間する)
    初期化 パッチサイズ
  • Mask R-CNN では、Faster R-CNN の出力部に Mask 機構を追加した。 Mask 機構は( あ )単位でクラス分類を行うもの であり、これにより Mask R-CNN は画像中の背景と各物体を( あ )単位で分類する( い )が可能になった。
    1. (あ)ピクセル (い)インスタンスセグメンテーション
  • Mask R-CNN のネットワークでは、モデルの出力部に物体検出機構と Mask 機構が並列に接続されている。 このとき、Mask R-CNN の物体検出精度は、Mask R-CNN から Mask 機構を取り除いた場合と比較し、( う )の寄与によ り精度が向上する。
    1. マルチタスク学習
  • Mask R-CNN は Faster R-CNN で候補領域の処理に用いられる RoI Pooling を改善する ことで物体検出精度を向上させた。候補領域座標の小数点以下の数値のXXXXを回避することで、領域のYYを軽減した
    切り捨て、ずれ
  • Faster R-CNN などの手法では、( あ )という物体位置検出のためのネットワークを通した後に、分類器を通すことでク ラスの識別を行っている( い )型に分類される。 YOLO では、画像の全体を特定のグリッドで区切り、物体位置検出とクラス識別を同時に行う処理がなされている。 このような検出と識別を同時に行うものを( う )と呼ぶ。
    ( あ )Region Proposal Network ( い )two-stage ( う )one-stage
  • YOLO(v1)における最終的に出力されるテンソルのパラメータ数として、適切な選択肢を 1 つ選べ。 なお各パラメータ は下記の通りとする。 グリッド数 S : 5 × 5 各グリッド単位あたりのバウンディングボックス候補数 B : 2 クラス数 C : 20
    750 SxS(5xB+C)
  • v1 と比較して v2 , v3 で行われた改良内容について、不適切な選択肢を 1 つ選べ 1. クラス予測をソフトマックスからロジスティック回帰に変更した 2. モデルアーキテクチャーを Darknet から Resnet に変更した
3. 3 つの異なるスケールボックスで予測させるピラミッド構造のネットワークを採用した 4. モデルの過学習抑制と収束性をあげるため、Batch Normalization を適用した
    2
  • FCOS の特徴 XXXXサンプル数とYYYYサンプル数数(検出物と背景)の不均衡を改善している
    ポジティプ・ネガティブ
  • 画像認識タスクの 1 つに semantic segmentation がある。 semantic segmentation と物体検出は画像中の複数の物体を検出 するという点では共通しているが、 semantic segmentation では( あ )毎に物体クラスを割り当てる点で物体検出と異な るタスクである。 単純に( あ )毎に独立にクラスを割り当てると、( い )を出力することは難しい。 このため、Markov random fields(MRF)や conditional random fields(CRF)といった確率場による post-processing が従来用いられてきた。
    1. ピクセル・ 1. 各物体に属する( あ )集合に対して一様なクラス
  • semantic segmentation に深層学習を用いた 1 つの例に、U-Net [Ronneberger+, 2015] がある。 一般に、プーリング層を含 む畳み込みニューラルネットワークを用いると、画像の抽象的な情報を抽出できる一方で、( う )は失われてしまう。 そ のため、スキップコネクションを導入し特徴マップを結合して用いるアプローチが U-Net では採用されている。
    ピクセル粒度の位置に関する情報
  • BERT は様々なタスクへの応用を前提として大規模コーパスによって表現学習を行った( あ )モデルであり、一般的な文 脈の単語や文章同士の依存関係を学習しているため高い汎用性を持つ。 そして、そこで得られたパラメータの値を初期値として、タスクに合わせてパラメータを訓練し直す( い )を行うこと で、質疑応答やセンチメント分析などの 11 種類の自然言語処理タスクで SoTA を達成した。
    ( あ )事前学習 ( い )ファインチューニング
  • BERT 以前の自然言語処理モデルでは、入力された単語列の次の単語を予測する 言語モデル(Language Model)タスクを 用い事前学習するのが一般的であった。 しかし、BERT は Attention 機構を用い( う )ため、そのような学習が困難である。そこで、 BERT は事前学習タスクと して、文章の一部の単語を隠し、その隠された単語を予測する Masked Language Model を用いた。
    文章を一度にまとめて読み込む
  • VAE、GAN の 2 つは生成モデルとしてよく知られているが、近年ではこの既存手法をフローベース生成モデルで置き換え る論文が数多く発表されている。VAE、GAN の 2 つは生成モデルとしてよく知られているが、近年ではこの既存手法をフローベース生成モデルで置き換え る論文が数多く発表されている。VAE、GAN の 2 つは生成モデルとしてよく知られているが、近年ではこの既存手法をフローベース生成モデルで置き換え る論文が数多く発表されている。フローベース生成モデルは、データ尤度を直接計算して求めることができ、異常検知などにも適用できるか?
    できる
  • フローベース生成モデルであるGlow(Kingma et al. 2018)は、XXX 畳み込みと YYY を導入し計算を効率化した
    1x1 畳み込みと actnorm
  • 拡散モデルは元のデータに徐々にノイズを加えて完全なノイズになるまでのプロセスを逆転し、ノイズを徐々に除去しデー タを復元するプロセスをモデル化し利用することで新たなデータを生成する。 フローモデルより計算コストはYYYなるが拡散モデルの方が高品質な画像を生成する能力がXXX
    高い、高い
  • ''' 識別器の損失を計算する real_output: 実画像を識別器に通した結果 fake_output: 偽画像を識別器に通した結果 ''' loss1 = cross_entropy(tf.ones_like( ( あ ) ), ( あ )) loss2 = cross_entropy(tf.zeros_like( ( い ) ), ( い )) return ( う )
    ( あ )real_output ( い )fake_output ( う )loss1 + loss2
  • def generator_loss(output): ''' 生成器の損失を計算する output: ( え ) ''' return cross_entropy( ( お ) , output)
    1. ( え )偽画像を識別器に通した結果 ( お )tf.ones_likeoutput
  • DQN(Deep Q Network)では、深層ニューラルネットワークの学習を安定させるために、経験再生やターゲットネット ワークといった工夫を施していた。 これに対し、A3C では、サンプルの生成を( あ )に行い、パラメータの更新を( い )行うことで学習の安定を図ってい る。 経験再生を用いて方策オフ型の学習をする DQN とは対照的に、A3C では経験再生を用いない方策オン型の学習であ る。
    (あ)並列(い)非同期で
  • 次の文章は A3C の基礎である方策勾配法と Actor-Critic 法に関して説明した文である。 方策勾配法は、 θ をパラメータに持つ方策 πθ に従ったときの期待収益 ρθ が最大になるように、 θ を勾配法で最適化する アルゴリズムである。 パラメータの更新に用いられる勾配 ∇θρθ は、方策勾配定理により、以下のように記述できる。 ∇θρθ = E[∇θ log π(a|s, θ)(Qπθ(s, a) − b(s))]・・・( 式1 ) ここで、 b(s) はベースラインと呼ばれ、推定量の分散を小さくする目的で導入される。 REINFORCE アルゴリズムでは、 サンプルされた収益で Qπθ(s, a) を推定するのに対し、 Actor-Critic 法は何らかの形でパラメトリックな価値関数を用いて ( う )を推定する。 このとき、方策を( え )、価値関数を( お )という。 ( う )( え )( お )に当てはまる組み合わせとして適切な選択肢を 1 つ選べ。
    (う)Qπθ(s,a)−b(s) (え)Actor (お)Critic
  • 1. Atari2600 で学習性能を評価したとき、マルチコア CPU マシンにて A3C は DQN よりもXXX演算時間でYYY性能が得 られた
    短い・高い
  • 転移学習では、視覚的カテゴリの多くは、サンプルそのものの特徴量を共有しているか?
    してない
  • ドメイン適応とは、データ分布が時間と共に緩やかに変化することを考慮した転移学習のことか?
    違う
  • 半教師あり学習は、教師あり学習と教師なし学習の中間的位置付けである。 ラベルありデータが少ない場合でも、ラベル なしデータが集めることができれば、データのアノテーションコストを抑えた学習が可能になる。 半教師あり学習にはい くつかの代表的な手法がある。 1 つ目は、入力データにノイズが乗っても、出力データはノイズが無い状態のものと同じになるべきという考えに基づき データ拡張などによってノイズが乗った入力と元の入力の両方の出力差が最小になるようにする手法で( あ )という。 2 つ目は、ニューラルネットワークの出力は決定境界から可能な限り遠ざけるようにする手法で( い )と呼ばれる。
    ( あ )Consistency regularization(一致性正則化) ( い )Entropy minimization(エントロピー最小化)
  • ラベルを使わずに特徴量を比較するContrastive Learning(対照学習)では、アンカーと類似するデータは潜在空間において類似する埋め込みXXXになるように、異なるデータは潜在空間で 異なるXXXになるように学習する
    ベクトル
  • Supervised Contrastive Loss を利用する場合、データ A とデータ A' に加えてデータ B との距離がXXXなるように学 習する。
    近く
  • LIME、SHAP の特徴として、 CNN やアンサンブルツリーなど、モデルを問わず様々な機械学習モデルに適用できるか?
    できる
  • LIME は Ribeiro らによって提案された手法である(Ribeiro M.T., et al., " Why should I trust you? Explaining the predictions of any classifier", 2016)。下図は LIME の原理を理解するための概念図である(論文より引用)。 図において説明対象の入力データを赤色の太字の十字とする。そのデータの周辺からサンプリングと予測を繰り返し行うこ とで得られるデータセットを教師データとして、( あ )モデルを作成する。
    線形回帰
  • SHAP は複数の研究チームによって提案され、局所的説明をゲーム理論の Sharply 値を利用して統一的に記述した手法であ る。 SHAP では説明に対する要件として下記のような条件を挙げている。 ( a )・・・ある入力を x 、x の予測を f(x) とする。また、単純化した入力データを x′ 、 x′ に対する局所的近似を f′(x′) とする。このとき、 f(x) と f′(x′) は同じになる。 ( b )・・・予測結果に影響を与えないような特徴量は、その予測に対して貢献度をしていない。 ( c )・・・f のほうが f′ よりもある特徴量 xi が有るか無いかによって出力値に大きな変化があるならば、 f のほうが f′ よりも貢献度が大きくなる。 ( a )( b )( c )の条件は、Local Accuracy, Missingness, Consistency と呼ばれ、それぞれいずれかに該当する。 組み 合わせとして適切な選択肢を 1 つ選べ。
    1. ( a )Local Accuracy ( b )Missingness ( c )Consistency
  • 古くから存在する代表的な機械学習の軽量化技術として、枝刈り(pruning)が挙げられる。 枝刈りをニューラルネットワークに適用したとき、ネットワークの構造を変えず結果に寄与しない重みを削除する手法の場合、一般に特殊な演算装置を使わない限り推 論時間を短縮できないか
    できない
  • 蒸留(Distillation)は、主に小さく高性能なモデルを得るために大規模なモデルを教師として、規模が小さな生徒モデルへ 知識を転移する方法である。生徒モデルの学習に、正解ラベルがないデータを利用できるか?
    できる
  • 量子化(Quantization)では、単精度浮動小数点数の学習済みモデルに対して、半精度浮動小数点数やそれ以下の bit 数で量子化しても無難な精度 が得られる場合、最初から少ない bit 数で一から学習しても同等な精度のモデルが得られるか?
    得られない
  • 単精度浮動小数点で構成されたディープラーニングモデルを組み込んだエッジデバイス試作品の動作確認を行ったところ、 推論時間が目標の 2 倍かかることが判明した場面を考える。推論時間の目標を達成するまで徐々に量子化をXXXしていく。ハードウェアの特性に依らず高速化が期待できるが、推論精度は低下する可能性がある
    強く
  • GPGPU とは、科学技術計算などのグラフィクス処理以外の汎用的な計算に GPU を用いる技術を指すか?
    指す
  • 一般的に、機械学習の学習過程は GPU で行う方が推論性能が高くなり、推論過程は CPU で行う方が高い性能を得ら れるか?
    いいえ
  • Docker は、イメージの構成を( あ )で管理し、複数のコンテナの構成を( い )で管理することで、インフラ構成管理を コードによって行うことができる。 これによって手作業によるミスや管理コストを削減できる
    ( あ )Dockerfile ( い )docker-compose.yml
  • docker build -t tensorflow-image . docker run -it --gpus 2 -p 8080:8080 tensorflow-image /bin/bash 説明として不適切な選択肢を 1 つ選べ。1. コンテナ作成時にホストの GPU を全て使用している 2. コンテナ作成時にコンテナの 8080 ポートをホストの 8080 ポートに割り当てている 3. 作成されたイメージの名前は tensorflow-image である 4. docker build コマンドで Dockerfile を元にイメージを作成する
    1
  • RMSPropの更新式(ht+1, θt+1を求める)
    以下の式
  • Adamの更新式(mt+1, vt+1, θt+1を求める)
    以下の式
  • DenseNetでは、特徴マップの幅、高さ、チャンネル数をXXXとYYYによって構成されるモジュールで調整する
    畳み込み層、プーリング層
  • Growth Rateが大きくなる五度DenseBlockのXXXXマップのYYYYは大きくなる
    出力特徴マップ、チャンネル数
  • DenseNet における,各 DenseBlock 間に置かれる特徴マップの幅・高さ・チャンネル数を変えるための モジュールの名前として最も適当なものを選べ.
    Transition Layer
  • Faster R-CNN では,Region Proposal Network の導入によって,XXX な学習が可能である.
    End-to-End
  • 線形な次元圧縮の手法の一つに,主成分分析(Principle Component Analysis: PCA)がある.PCA は,行 列 (あ) の固有ベクトルのうち, (い) を取り出して,それらの固有ベクトルが張る空間に特徴 ベクトル 𝑥®𝑖 を射影する手法である.
    (い)属する固有値が大きいもの
  • 非線形な次元圧縮の手法の代表例として,自己符号化器(AutoEncoder: AE)を利用した次元圧縮がある. ナイーブな AE では,入力と出力のサイズが等しくなるようなニューラルネットワークを利用し,入力と 教師ラベルの両方に 𝑥®𝑖 を適用して学習を行う.このとき,中間層のユニットサイズが 入力および出力のサイズよりもXXXなるようなアーキテクチャを用いることで,次元圧縮を達成 する.このような AE をYYYな AE と呼ぶ
    小さく、不完備な
  • VQ-VAE では,デコーダの入力 𝑍𝑞 (𝑥) にはエンコーダの出力 𝑍𝑒 (𝑥) ともっとも距離がXXX埋め込み表現を用いる
    近い
  • ELBOでは、𝑧 の事前分布 𝑝(𝑧) はYYYYであると仮定する.
    一様分布
  • VQーVAEの学習では、演算子 sg [·] は入力に対してXXX演算を行い,その勾配(偏微分)を Y と定めるものである.よっ て,第二項は 𝑧𝑒 (𝑥) を 𝑒 の近傍に束縛する.
    恒等・0
  • (か) のコマンドでコンテナをサービスとして起動で きる.
    docker-compose up
  • III. Actor-Critic に関して正しく述べているものを,以下の選択肢から選べ. (a) 行動空間が離散である場合,行動器のモデルとしてガウス方策が使用できる. (b) 評価器の学習には方策勾配法がよく用いられる. (c) Actor-critic は方策オフ型のアルゴリズムに分類される. (d) 評価器の損失関数として TD 誤差の 2 乗がよく用いられる.
    d
広告

コメント