E資格例題(E2024#2) / 出力

データセットを K 個のブロック(fold)に分割し、K - 1 を訓練に、残りの 1 ブロックを評価用データに使用する方法を K 分割交差検証(K-fold cross-validation)とよぶ。評価用データの選び方には K 通りあるが、このすべての場合についてモデルの訓練および評価をし、それらの性能の平均値を取って最終的なモデルの性能とする。なお、分類タスクの場合では、ブロックごとに含まれるクラスの割合を等しくすることがしばしば行われる。これを( う )という。

stratified k-fold CV
バイアス(b)の逆誤差計算の実装方法は？（勾配=dz）

np.sum(dz, axis=0)
入力xの逆誤差計算の実装方法は？

np.matmul(dz, self.weights[-i-1].transpose())
他クラス分類の損失計算

E = −∑logy
マルチラベル問題の損失計算

E = −∑∑(dlogy+(1-d)log(1-y))
順序回帰問題の解き方。（A)として定式化し、出力ユニット数は（B）個で活性化関数はシグモイド関数、正解ラベルは（C)で与えて各ユニットの損失を最小化するように学習する。このとき各ユニット出力を2値化する閾値はハイパーパラメータである。クラス予測結果には2値化した各ユニット出力の合計を使う。

2値分類問題・K−1・ハードラベル
ドロップアウトは正則化を実現する 1 つの手法である。学習時に、各ユニットを( あ )的に 0 または 1 でマスクする。1 でマスクされたユニットのみで学習することで、モデルの自由度を強制的に減らす。これによって、多数のパラメータを持つモデルにおいて、過学習を防ぐことが期待できる。また、各イタレーション毎にマスクするユニットを変えるため、多数のサブネットワークを学習できる。つまりドロップアウトを用いて学習したモデルは、多数のモデルを( い )したものと見ることができる。

1. ( あ )確率 ( い )アンサンブル
ドロップアウトのコスト関数の偏微分

−tδI+wδ^2I^2+∑wδδII
つまり、ドロップアウトを用いた場合、( え )を正則化パラメータとみなした適応的な( お )をしていることと等価になる。

(え)p(1−p)I^2 (お)L2正則化
畳み込み層により、入力画像内の物体の回転に対する頑健性が得られるか？

❌
1. nn.Linear(in_features=？ * ？ * ？, out_features=120)

out_channel, kernel_size, kernel_size
なんの式か。transform = transforms.Compose( [transforms.ToTensor(), transforms.Normalize(mean=(0.5, 0.5, 0.5), std=(0.5, 0.5, 0.5))] )

入力画像は平均0.5,標準偏差0.5を用いた正規化が適用された状態でモデルへと入力される
BPTT法(Backpropagation through time)　RNN をXXXに展開し、順伝搬型ネットワークに書き換えてYYY計算する

時間方向逆誤差伝播
RNN の学習において良く用いられる Teacher Forcing と呼ばれる手法の問題点

評価時はデコーダーが出力した系列がデコーダーの入力となるため、評価時の分布と学習時の分布が異なる
Transformer のアーキテクチャの説明として、不適切な選択肢を 1 つ選べ。 1. Encoder の最終出力は Decoder の Multi-Head Attention に入力される 2. Encoder ・ Decoder は共に順伝播ネットワークを含んでいる 3. Decoder を構成する N 個の層は全て Positional Encoding の出力を入力として受け取る 4. Decoder では Masked Multi-Head Attention が使用されている

3
Self-attention 層が畳み込み層やリカレント層と比較し優れている点として、不適切な選択肢を 1 つ選べ。 1. 一般的に、畳み込み層やリカレント層と比較して Self-attention 層は一層当たりの計算量が少ないため、モデルのスケールアップが容易である 2. 自然言語のような時系列データを逐次的に処理する必要がないため、データの並列処理能力が向上した 3. 各単語に対応する隠れ層の直前の隠れ層全てが Self-attention によって参照されるため、離れた単語同士の依存関係を  学習しやすい 4. 畳み込み層やリカレント層は固定長のシーケンスしか扱えなかったのに対し、Self-attention 層は可変長のシーケンスを扱える

4
identity mapping の内側の層は( あ )を学習する

入力xと、入出力の残差F(x)の対応
vision transformerはtransformerのXXXに相当する部分を含む

エンコーダ
Vision Transformer のファインチューニングのポイント（MLP層をXXX、事前学習時とYYYを揃える、パッチ枚数変化に対して事前学習した位置エンコーディングを 2次元補間する）

初期化パッチサイズ
Mask R-CNN では、Faster R-CNN の出力部に Mask 機構を追加した。 Mask 機構は( あ )単位でクラス分類を行うものであり、これにより Mask R-CNN は画像中の背景と各物体を( あ )単位で分類する( い )が可能になった。

1. (あ)ピクセル (い)インスタンスセグメンテーション
Mask R-CNN のネットワークでは、モデルの出力部に物体検出機構と Mask 機構が並列に接続されている。このとき、Mask R-CNN の物体検出精度は、Mask R-CNN から Mask 機構を取り除いた場合と比較し、( う )の寄与により精度が向上する。

1. マルチタスク学習
Mask R-CNN は Faster R-CNN で候補領域の処理に用いられる RoI Pooling を改善することで物体検出精度を向上させた。候補領域座標の小数点以下の数値のXXXXを回避することで、領域のYYを軽減した

切り捨て、ずれ
Faster R-CNN などの手法では、( あ )という物体位置検出のためのネットワークを通した後に、分類器を通すことでクラスの識別を行っている( い )型に分類される。 YOLO では、画像の全体を特定のグリッドで区切り、物体位置検出とクラス識別を同時に行う処理がなされている。このような検出と識別を同時に行うものを( う )と呼ぶ。

( あ )Region Proposal Network ( い )two-stage ( う )one-stage
YOLO(v1)における最終的に出力されるテンソルのパラメータ数として、適切な選択肢を 1 つ選べ。なお各パラメータは下記の通りとする。グリッド数 S : 5 × 5 各グリッド単位あたりのバウンディングボックス候補数 B : 2 クラス数 C : 20

７５０ SxS(5xB+C)
v1 と比較して v2 , v3 で行われた改良内容について、不適切な選択肢を 1 つ選べ 1. クラス予測をソフトマックスからロジスティック回帰に変更した 2. モデルアーキテクチャーを Darknet から Resnet に変更した 3. 3 つの異なるスケールボックスで予測させるピラミッド構造のネットワークを採用した 4. モデルの過学習抑制と収束性をあげるため、Batch Normalization を適用した

2
FCOS の特徴 XXXXサンプル数とYYYYサンプル数数(検出物と背景)の不均衡を改善している

ポジティプ・ネガティブ
画像認識タスクの 1 つに semantic segmentation がある。 semantic segmentation と物体検出は画像中の複数の物体を検出するという点では共通しているが、 semantic segmentation では( あ )毎に物体クラスを割り当てる点で物体検出と異なるタスクである。単純に( あ )毎に独立にクラスを割り当てると、( い )を出力することは難しい。このため、Markov random fields(MRF)や conditional random fields(CRF)といった確率場による post-processing が従来用いられてきた。

1. ピクセル・ 1. 各物体に属する( あ )集合に対して一様なクラス
semantic segmentation に深層学習を用いた 1 つの例に、U-Net [Ronneberger+, 2015] がある。一般に、プーリング層を含む畳み込みニューラルネットワークを用いると、画像の抽象的な情報を抽出できる一方で、( う )は失われてしまう。そのため、スキップコネクションを導入し特徴マップを結合して用いるアプローチが U-Net では採用されている。

ピクセル粒度の位置に関する情報
BERT は様々なタスクへの応用を前提として大規模コーパスによって表現学習を行った( あ )モデルであり、一般的な文脈の単語や文章同士の依存関係を学習しているため高い汎用性を持つ。そして、そこで得られたパラメータの値を初期値として、タスクに合わせてパラメータを訓練し直す( い )を行うことで、質疑応答やセンチメント分析などの 11 種類の自然言語処理タスクで SoTA を達成した。

( あ )事前学習 ( い )ファインチューニング
BERT 以前の自然言語処理モデルでは、入力された単語列の次の単語を予測する言語モデル(Language Model)タスクを用い事前学習するのが一般的であった。しかし、BERT は Attention 機構を用い( う )ため、そのような学習が困難である。そこで、 BERT は事前学習タスクとして、文章の一部の単語を隠し、その隠された単語を予測する Masked Language Model を用いた。

文章を一度にまとめて読み込む
VAE、GAN の 2 つは生成モデルとしてよく知られているが、近年ではこの既存手法をフローベース生成モデルで置き換える論文が数多く発表されている。VAE、GAN の 2 つは生成モデルとしてよく知られているが、近年ではこの既存手法をフローベース生成モデルで置き換える論文が数多く発表されている。VAE、GAN の 2 つは生成モデルとしてよく知られているが、近年ではこの既存手法をフローベース生成モデルで置き換える論文が数多く発表されている。フローベース生成モデルは、データ尤度を直接計算して求めることができ、異常検知などにも適用できるか？

できる
フローベース生成モデルであるGlow(Kingma et al. 2018)は、XXX 畳み込みと YYY を導入し計算を効率化した

1x1 畳み込みと actnorm
拡散モデルは元のデータに徐々にノイズを加えて完全なノイズになるまでのプロセスを逆転し、ノイズを徐々に除去しデータを復元するプロセスをモデル化し利用することで新たなデータを生成する。フローモデルより計算コストはYYYなるが拡散モデルの方が高品質な画像を生成する能力がXXX

高い、高い
''' 識別器の損失を計算する real_output: 実画像を識別器に通した結果 fake_output: 偽画像を識別器に通した結果 ''' loss1 = cross_entropy(tf.ones_like( ( あ ) ), ( あ )) loss2 = cross_entropy(tf.zeros_like( ( い ) ), ( い )) return ( う )

( あ )real_output ( い )fake_output ( う )loss1 + loss2
def generator_loss(output): ''' 生成器の損失を計算する output: ( え ) ''' return cross_entropy( ( お ) , output)

1. ( え )偽画像を識別器に通した結果 ( お )tf.ones_likeoutput
DQN(Deep Q Network)では、深層ニューラルネットワークの学習を安定させるために、経験再生やターゲットネットワークといった工夫を施していた。これに対し、A3C では、サンプルの生成を( あ )に行い、パラメータの更新を( い )行うことで学習の安定を図っている。経験再生を用いて方策オフ型の学習をする DQN とは対照的に、A3C では経験再生を用いない方策オン型の学習である。

(あ)並列(い)非同期で
次の文章は A3C の基礎である方策勾配法と Actor-Critic 法に関して説明した文である。方策勾配法は、 θ をパラメータに持つ方策 πθ に従ったときの期待収益 ρθ が最大になるように、 θ を勾配法で最適化するアルゴリズムである。パラメータの更新に用いられる勾配 ∇θρθ は、方策勾配定理により、以下のように記述できる。 ∇θρθ = E[∇θ log π(a|s, θ)(Qπθ(s, a) − b(s))]・・・( 式1 ) ここで、 b(s) はベースラインと呼ばれ、推定量の分散を小さくする目的で導入される。 REINFORCE アルゴリズムでは、サンプルされた収益で Qπθ(s, a) を推定するのに対し、 Actor-Critic 法は何らかの形でパラメトリックな価値関数を用いて ( う )を推定する。このとき、方策を( え )、価値関数を( お )という。 ( う )( え )( お )に当てはまる組み合わせとして適切な選択肢を 1 つ選べ。

(う)Qπθ(s,a)−b(s) (え)Actor (お)Critic
1. Atari2600 で学習性能を評価したとき、マルチコア CPU マシンにて A3C は DQN よりもXXX演算時間でYYY性能が得られた

短い・高い
転移学習では、視覚的カテゴリの多くは、サンプルそのものの特徴量を共有しているか？

してない
ドメイン適応とは、データ分布が時間と共に緩やかに変化することを考慮した転移学習のことか？

違う
半教師あり学習は、教師あり学習と教師なし学習の中間的位置付けである。ラベルありデータが少ない場合でも、ラベルなしデータが集めることができれば、データのアノテーションコストを抑えた学習が可能になる。半教師あり学習にはいくつかの代表的な手法がある。 1 つ目は、入力データにノイズが乗っても、出力データはノイズが無い状態のものと同じになるべきという考えに基づきデータ拡張などによってノイズが乗った入力と元の入力の両方の出力差が最小になるようにする手法で( あ )という。 2 つ目は、ニューラルネットワークの出力は決定境界から可能な限り遠ざけるようにする手法で( い )と呼ばれる。

( あ )Consistency regularization(一致性正則化) ( い )Entropy minimization(エントロピー最小化)
ラベルを使わずに特徴量を比較するContrastive Learning(対照学習)では、アンカーと類似するデータは潜在空間において類似する埋め込みXXXになるように、異なるデータは潜在空間で異なるXXXになるように学習する

ベクトル
Supervised Contrastive Loss を利用する場合、データ A とデータ A' に加えてデータ B との距離がXXXなるように学習する。

近く
LIME、SHAP の特徴として、 CNN やアンサンブルツリーなど、モデルを問わず様々な機械学習モデルに適用できるか？

できる
LIME は Ribeiro らによって提案された手法である(Ribeiro M.T., et al., " Why should I trust you? Explaining the predictions of any classifier", 2016)。下図は LIME の原理を理解するための概念図である(論文より引用)。図において説明対象の入力データを赤色の太字の十字とする。そのデータの周辺からサンプリングと予測を繰り返し行うことで得られるデータセットを教師データとして、( あ )モデルを作成する。

線形回帰
SHAP は複数の研究チームによって提案され、局所的説明をゲーム理論の Sharply 値を利用して統一的に記述した手法である。 SHAP では説明に対する要件として下記のような条件を挙げている。 ( a )・・・ある入力を x 、x の予測を f(x) とする。また、単純化した入力データを x′ 、 x′ に対する局所的近似を f′(x′) とする。このとき、 f(x) と f′(x′) は同じになる。 ( b )・・・予測結果に影響を与えないような特徴量は、その予測に対して貢献度をしていない。 ( c )・・・f のほうが f′ よりもある特徴量 xi が有るか無いかによって出力値に大きな変化があるならば、 f のほうが f′ よりも貢献度が大きくなる。 ( a )( b )( c )の条件は、Local Accuracy, Missingness, Consistency と呼ばれ、それぞれいずれかに該当する。組み合わせとして適切な選択肢を 1 つ選べ。

1. ( a )Local Accuracy ( b )Missingness ( c )Consistency
古くから存在する代表的な機械学習の軽量化技術として、枝刈り(pruning)が挙げられる。枝刈りをニューラルネットワークに適用したとき、ネットワークの構造を変えず結果に寄与しない重みを削除する手法の場合、一般に特殊な演算装置を使わない限り推論時間を短縮できないか

できない
蒸留(Distillation)は、主に小さく高性能なモデルを得るために大規模なモデルを教師として、規模が小さな生徒モデルへ知識を転移する方法である。生徒モデルの学習に、正解ラベルがないデータを利用できるか？

できる
量子化(Quantization)では、単精度浮動小数点数の学習済みモデルに対して、半精度浮動小数点数やそれ以下の bit 数で量子化しても無難な精度が得られる場合、最初から少ない bit 数で一から学習しても同等な精度のモデルが得られるか？

得られない
単精度浮動小数点で構成されたディープラーニングモデルを組み込んだエッジデバイス試作品の動作確認を行ったところ、推論時間が目標の 2 倍かかることが判明した場面を考える。推論時間の目標を達成するまで徐々に量子化をXXXしていく。ハードウェアの特性に依らず高速化が期待できるが、推論精度は低下する可能性がある

強く
GPGPU とは、科学技術計算などのグラフィクス処理以外の汎用的な計算に GPU を用いる技術を指すか？

指す
一般的に、機械学習の学習過程は GPU で行う方が推論性能が高くなり、推論過程は CPU で行う方が高い性能を得られるか？

いいえ
Docker は、イメージの構成を( あ )で管理し、複数のコンテナの構成を( い )で管理することで、インフラ構成管理をコードによって行うことができる。これによって手作業によるミスや管理コストを削減できる

( あ )Dockerfile ( い )docker-compose.yml
docker build -t tensorflow-image . docker run -it --gpus 2 -p 8080:8080 tensorflow-image /bin/bash　説明として不適切な選択肢を 1 つ選べ。1. コンテナ作成時にホストの GPU を全て使用している 2. コンテナ作成時にコンテナの 8080 ポートをホストの 8080 ポートに割り当てている 3. 作成されたイメージの名前は tensorflow-image である 4. docker build コマンドで Dockerfile を元にイメージを作成する

1
RMSPropの更新式（ht+1, θt+1を求める）

以下の式
Adamの更新式(mt+1, vt+1, θt+1を求める）

以下の式
DenseNetでは、特徴マップの幅、高さ、チャンネル数をXXXとYYYによって構成されるモジュールで調整する

畳み込み層、プーリング層
Growth Rateが大きくなる五度DenseBlockのXXXXマップのYYYYは大きくなる

出力特徴マップ、チャンネル数
DenseNet における，各 DenseBlock 間に置かれる特徴マップの幅・高さ・チャンネル数を変えるためのモジュールの名前として最も適当なものを選べ.

Transition Layer
Faster R-CNN では，Region Proposal Network の導入によって，XXX な学習が可能である.

End-to-End
線形な次元圧縮の手法の一つに，主成分分析(Principle Component Analysis: PCA)がある.PCA は，行列 (あ) の固有ベクトルのうち， (い) を取り出して，それらの固有ベクトルが張る空間に特徴ベクトル 𝑥®𝑖 を射影する手法である.

（い）属する固有値が大きいもの
非線形な次元圧縮の手法の代表例として，自己符号化器(AutoEncoder: AE)を利用した次元圧縮がある. ナイーブな AE では，入力と出力のサイズが等しくなるようなニューラルネットワークを利用し，入力と教師ラベルの両方に 𝑥®𝑖 を適用して学習を行う.このとき，中間層のユニットサイズが入力および出力のサイズよりもXXXなるようなアーキテクチャを用いることで，次元圧縮を達成する.このような AE をYYYな AE と呼ぶ

小さく、不完備な
VQ-VAE では，デコーダの入力 𝑍𝑞 (𝑥) にはエンコーダの出力 𝑍𝑒 (𝑥) ともっとも距離がXXX埋め込み表現を用いる

近い
ELBOでは、𝑧 の事前分布 𝑝(𝑧) はYYYYであると仮定する.

一様分布
VQーVAEの学習では、演算子 sg [·] は入力に対してXXX演算を行い，その勾配(偏微分)を Y と定めるものである.よって，第二項は 𝑧𝑒 (𝑥) を 𝑒 の近傍に束縛する.

恒等・０
(か) のコマンドでコンテナをサービスとして起動できる.

docker-compose up
III. Actor-Critic に関して正しく述べているものを，以下の選択肢から選べ. (a) 行動空間が離散である場合，行動器のモデルとしてガウス方策が使用できる. (b) 評価器の学習には方策勾配法がよく用いられる. (c) Actor-critic は方策オフ型のアルゴリズムに分類される. (d) 評価器の損失関数として TD 誤差の 2 乗がよく用いられる.

d

オンライン単語帳

このページを利用するにはログインする必要があります。ログインするとAnkilotをより便利にご利用いただけます。

登録するログインする