当前位置：首页 > news >正文

【人工智能学习-AI入试相关题目练习-第十八次】

news 2026/3/26 23:45:40

1-前言
3-问题题目训练
- 【問題1｜模拟①｜Q学習の定義と更新式】
- 【問題2｜模拟②｜SARSAとの比較】
- 【問題3｜预测题｜Q学習の収束と実用上の問題】
4-练习（日语版本）解析
5-练习（日语版本）
- - （1）各記号の意味
  - （2）Q学習が off-policy である理由
【問題2｜满分答案模板】
- - （1）SARSAの更新式
  - （2）Q学習とSARSAの違い（on / off-policy）
  - （3）SARSAが安全寄りの行動を学習しやすい理由
【問題3｜满分答案模板｜预测命中率最高】
- - （1）Q学習の収束条件
  - （2）大規模状態空間における問題点
  - （3）関数近似Q学習が不安定になる原因
6-总结

1-前言

为了应对大学院考试，我们来学习相关人工智能相关知识，并做各种练习。

通过学习，也算是做笔记，让自己更理解些。

（配点想定：25点）

状態集合を (S)、行動集合を (A) とするマルコフ決定過程（MDP）において、
エージェントはモデルを持たず、行動価値関数 (Q(s,a)) を直接学習する。

このとき、Q学習における1ステップ更新式は次式で与えられる：

[
Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \Bigl[ r_{t+1} + \gamma \max_{a’} Q(s_{t+1}, a’) - Q(s_t, a_t) \Bigr]
]

以下の問いに答えよ。

上式に含まれる各記号
(\alpha, \gamma, r_{t+1}, \max_{a’} Q(s_{t+1}, a’))
がそれぞれ何を意味するか、強化学習の文脈で簡潔に説明せよ。
Q学習が
- 方策に依存しない（off-policy）学習
  であると言われる理由を、上式を用いて説明せよ。

（配点想定：30点）

Q学習とSARSAはいずれも行動価値関数を学習する手法であるが、
更新式および学習の性質に明確な違いが存在する。

以下の問いに答えよ。

SARSAの更新式を記述せよ。
Q学習とSARSAの違いを、
- 更新に用いる次状態の行動
- 探索行動（例：(\varepsilon)-greedy）との関係
  の観点から比較し、on-policy / off-policy の違いを明確にして説明せよ。
危険な行動（大きな負の報酬）を含む環境において、
SARSAがQ学習より安全寄りの行動を学習しやすい理由を述べよ。

（配点想定：35点｜立命馆“考察型”）

Q学習は、適切な条件下において最適行動価値関数 (Q^*) に収束することが知られている。

以下の問いに答えよ。

Q学習が理論的に収束するために必要な条件を、
学習率 (\alpha) と探索条件の観点から述べよ。
状態空間・行動空間が非常に大きい場合、
テーブル型Q学習が実用的でなくなる理由を説明せよ。
上記の問題を解決するために導入された
関数近似（例：ニューラルネットワーク）を用いたQ学習において、
学習が不安定になる主な原因を1つ挙げ、簡潔に説明せよ。

（Q学習の定義と更新式）

Q学習における更新式
[
Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \Bigl[ r_{t+1} + \gamma \max_{a’} Q(s_{t+1}, a’) - Q(s_t, a_t) \Bigr]
]
において、

(\alpha) は学習率であり、新しい経験をどの程度現在の推定値に反映させるかを制御するパラメータである。
(\gamma) は割引率であり、将来得られる報酬をどの程度重視するかを表す。
(r_{t+1}) は、状態 (s_t) で行動 (a_t) を選択した結果として得られる即時報酬である。
(\max_{a’} Q(s_{t+1}, a’)) は、次状態 (s_{t+1}) において取り得る行動の中での最大の行動価値を表し、将来の最適行動を仮定した評価である。

（※ここまででほぼ満点ゾーン）