当前位置: 首页 > news >正文

【人工智能学习-AI入试相关题目练习-第十八次】

人工智能学习-AI入试相关题目练习-第十八次

  • 1-前言
  • 3-问题题目训练
    • 【問題1|模拟①|Q学習の定義と更新式】
    • 【問題2|模拟②|SARSAとの比較】
    • 【問題3|预测题|Q学習の収束と実用上の問題】
  • 4-练习(日语版本)解析
  • 5-练习(日语版本)
      • (1)各記号の意味
      • (2)Q学習が off-policy である理由
  • 【問題2|满分答案模板】
      • (1)SARSAの更新式
      • (2)Q学習とSARSAの違い(on / off-policy)
      • (3)SARSAが安全寄りの行動を学習しやすい理由
  • 【問題3|满分答案模板|预测命中率最高】
      • (1)Q学習の収束条件
      • (2)大規模状態空間における問題点
      • (3)関数近似Q学習が不安定になる原因
  • 6-总结

1-前言

为了应对大学院考试,我们来学习相关人工智能相关知识,并做各种练习。

通过学习,也算是做笔记,让自己更理解些。

3-问题题目训练

【問題1|模拟①|Q学習の定義と更新式】

(配点想定:25点)

状態集合を (S)、行動集合を (A) とするマルコフ決定過程(MDP)において、
エージェントはモデルを持たず、行動価値関数 (Q(s,a)) を直接学習する。

このとき、Q学習における1ステップ更新式は次式で与えられる:

[
Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \Bigl[ r_{t+1} + \gamma \max_{a’} Q(s_{t+1}, a’) - Q(s_t, a_t) \Bigr]
]

以下の問いに答えよ。

  1. 上式に含まれる各記号
    (\alpha, \gamma, r_{t+1}, \max_{a’} Q(s_{t+1}, a’))
    がそれぞれ何を意味するか、強化学習の文脈で簡潔に説明せよ

  2. Q学習が

    • 方策に依存しない(off-policy)学習
      であると言われる理由を、上式を用いて説明せよ。

【問題2|模拟②|SARSAとの比較】

(配点想定:30点)

Q学習とSARSAはいずれも行動価値関数を学習する手法であるが、
更新式および学習の性質に明確な違いが存在する。

以下の問いに答えよ。

  1. SARSAの更新式を記述せよ。

  2. Q学習とSARSAの違いを、

    • 更新に用いる次状態の行動
    • 探索行動(例:(\varepsilon)-greedy)との関係
      の観点から比較し、on-policy / off-policy の違いを明確にして説明せよ
  3. 危険な行動(大きな負の報酬)を含む環境において、
    SARSAがQ学習より安全寄りの行動を学習しやすい理由を述べよ。


【問題3|预测题|Q学習の収束と実用上の問題】

(配点想定:35点|立命馆“考察型”)

Q学習は、適切な条件下において最適行動価値関数 (Q^*) に収束することが知られている。

以下の問いに答えよ。

  1. Q学習が理論的に収束するために必要な条件を、
    学習率 (\alpha) と探索条件の観点から述べよ。

  2. 状態空間・行動空間が非常に大きい場合、
    テーブル型Q学習が実用的でなくなる理由を説明せよ。

  3. 上記の問題を解決するために導入された
    関数近似(例:ニューラルネットワーク)を用いたQ学習において、
    学習が不安定になる主な原因を1つ挙げ、簡潔に説明せよ。


4-练习(日语版本)解析

5-练习(日语版本)

(Q学習の定義と更新式)


(1)各記号の意味

Q学習における更新式
[
Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \Bigl[ r_{t+1} + \gamma \max_{a’} Q(s_{t+1}, a’) - Q(s_t, a_t) \Bigr]
]
において、

  • (\alpha) は学習率であり、新しい経験をどの程度現在の推定値に反映させるかを制御するパラメータである。
  • (\gamma) は割引率であり、将来得られる報酬をどの程度重視するかを表す。
  • (r_{t+1}) は、状態 (s_t) で行動 (a_t) を選択した結果として得られる即時報酬である。
  • (\max_{a’} Q(s_{t+1}, a’)) は、次状態 (s_{t+1}) において取り得る行動の中での最大の行動価値を表し、将来の最適行動を仮定した評価である。

(※ここまででほぼ満点ゾーン)


(2)Q学習が off-policy である理由

Q学習は、実際に選択した行動とは無関係に
次状態における最大の行動価値 (\max_{a’} Q(s_{t+1}, a’))を用いて更新を行う。

そのため、

  • 行動選択は探索方策(例:(\varepsilon)-greedy)に従って行われていても、
  • 更新は常に最適方策を仮定した値に基づいて行われる。

このように、行動生成方策と更新に用いる方策が一致していないため、
Q学習はoff-policy 学習である。


【問題2|满分答案模板】

(SARSAとの比較)


(1)SARSAの更新式

SARSAの更新式は次式で与えられる。

[
Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \Bigl[ r_{t+1} + \gamma Q(s_{t+1}, a_{t+1}) - Q(s_t, a_t) \Bigr]
]

ここで (a_{t+1}) は、次状態 (s_{t+1}) において実際に選択された行動である。


(2)Q学習とSARSAの違い(on / off-policy)

Q学習では、更新に
[
\max_{a’} Q(s_{t+1}, a’)
]
を用いるため、次状態における最適行動を仮定して学習を行う。
このため Q学習はoff-policy 学習である。

一方、SARSAでは、
[
Q(s_{t+1}, a_{t+1})
]
すなわち、探索を含む現在の方策によって実際に選択された行動を用いて更新を行う。

したがって、SARSAは
行動選択と学習が同一の方策に基づく on-policy 学習である。


(3)SARSAが安全寄りの行動を学習しやすい理由

SARSAでは、探索行動によるリスクも含めた行動価値が更新に反映される。
そのため、危険な行動が探索中に選択され、大きな負の報酬を受ける場合、
その影響が直接 (Q) 値に反映される。

結果として、
SARSAは探索時のリスクを考慮した保守的な方策を学習しやすく、
Q学習と比べて安全寄りの行動を選択する傾向がある。


【問題3|满分答案模板|预测命中率最高】

(収束性と実用上の問題)


(1)Q学習の収束条件

Q学習が最適行動価値関数 (Q^*) に収束するためには、以下の条件が必要である。

  • すべての状態–行動対が無限回訪問されること(十分な探索)
  • 学習率 (\alpha_t) が
    [
    \sum_t \alpha_t = \infty,\quad \sum_t \alpha_t^2 < \infty
    ]
    を満たすように、適切に減少すること

これらの条件の下で、Q学習は確率1で (Q^*) に収束することが知られている。


(2)大規模状態空間における問題点

状態空間および行動空間が大きくなると、
テーブル型Q学習ではすべての状態–行動対に対して
(Q) 値を保存・更新する必要がある。

その結果、

  • メモリ使用量が増大する
  • 十分な探索が困難になる

といった問題が生じ、実用的でなくなる


(3)関数近似Q学習が不安定になる原因

ニューラルネットワークなどの関数近似を用いたQ学習では、

  • ブートストラップ(自己参照)
  • 関数近似
  • off-policy 学習

の3つが同時に存在する。

この組み合わせにより、
学習が発散したり不安定になる可能性があることが知られている。


6-总结

知识一点点记录吧,最后应对考试,打下基础

http://www.jsqmd.com/news/343297/

相关文章:

  • 数字图像处理篇---闭运算
  • 【大学院-筆記試験練習:线性代数和数据结构(24)】
  • 数字图像处理篇---形态学梯度
  • 从零开始学Java随记D1
  • 数字图像处理篇---顶帽
  • 数字图像处理篇---腐蚀
  • 从技术到商业:AI应用架构师拆解数据交易定价系统的核心逻辑
  • 帮我写一个提示词,用于根据视频内容,总结提炼生成闪记卡
  • 数字图像处理篇---膨胀
  • 数字图像处理篇---开运算
  • 这6款基于AI的工具,帮助用户在论文写作中实现更高效率与更优质的结果
  • 利用AI驱动的6款强大工具,论文写作时间缩短了,内容质量也得到了显著优化
  • 数字图像处理篇---常见的形态学操作
  • Kubernetes Charts资源包管理工具之Heml学习总结
  • 详解四大格式(PIL/OpenCV/NumPy/PyTorch)的转换原理与场景选择
  • 互联网大厂Java求职面试实录:从核心技术到AI大数据应用
  • AI技术支持的6款工具,为论文写作带来更快的完成速度和更出色的内容表现
  • 图像边缘检测算法全景解析
  • 2026年热门的深圳CNC操机编程培训,深圳无人机编程培训学校用户好评推荐榜 - 品牌鉴赏师
  • 借助AI驱动的6款智能工具,用户可以大幅加快论文写作速度并提升内容质量
  • P1449 后缀表达式
  • Chronyd与NTP
  • 这6款由AI驱动的专业工具,为论文写作提供了更快的速度和更高的质量保障
  • AI赋能的6款实用工具,让论文写作变得更加流畅,同时大幅改善最终成果质量
  • 国产时序数据库的云原生实践:Apache IoTDB 与 TimechoDB 在物联网场景的深度应用
  • AI效率工具基础版与专业版的核心差异详解:涵盖10款工具
  • 剑桥大学定义图形世界:神经网络让纹理压缩像画家调色一样自然
  • 开发报销单自动填写工具,导入发票信息(金额,日期,品类),自动填充报销单,核对无误后导出,支持按公司规范调整,节省报销时间。
  • 李想汽车研究院:让AI从“工具使用者“进化为“工具创造者“
  • Advanced Genetics|作物杂种优势遗传机理的定量解析