4.1 Sarsa算法 TD 算法是一大类算法的总称。Q 学习是一种 TD 算法,Q 学习的目的是学习最优动作价值函数\(Q^*\)。这里介绍 SARSA, 它也是一种 TD 算法,SARSA 的目的是学习动作价值函数\(Q_\pi(s, a)\)。 表格形式的 SARSA 假设状态空间\(S\)和动作空间\(\mathcal{A}\)都是有限集,即集合中元素数量有限。比如,\(S\)中一共有 3 种状态,\( 2024-12-04 AI > RL > DRL-王树森 #RL
3.1 随机排列 Random Permutation(随机排列) What is uniform random permutation? Fisher-Yates 洗牌算法 排列数等于n! “uniform random permutation”(均匀随机排列)是指生成一个排列,其中每个可能的排列都以相等的概率出现。具体来说,对于含有n个元素的集合,它的所有n!个排列中的每一个都有相同的概率被选中。 2024-12-04 AI > RL > DRL-王树森 #RL
2.1 蒙特卡洛估计 ChatGPT对蒙特卡洛方法的介绍 蒙特卡洛方法是一类基于随机抽样和统计学原理的数值计算方法,其核心思想是通过随机抽样来近似解决问题。这种方法在强化学习、优化问题、概率估计等领域都有广泛的应用。以下是关于蒙特卡洛方法的一些基本概念: 基本思想 随机抽样: 蒙特卡洛方法利用随机抽样的方式来近似计算某个问题的数值解。通过大量的随机样本,可以得到对问题的概率分布、期望值等进行估计的结果。 2024-12-04 AI > RL > DRL-王树森 #RL
1.5 ALPHAGO 围棋游戏介绍 High level Ideas 训练包含3步: 用behavior cloning初始化策略网络 用策略梯度训练策略网络 策略网络训练完之后,用它来训练价值网络。 Behavior Cloning ChatGPT介绍什么是Behavior cloning: Behavior cloning(行为克隆)是一种强化学习中的学习方法,其中一个模型(通常是神 2024-12-04 AI > RL > DRL-王树森 #RL
1.4 Actor-Critic Method Actor-Critic方法把价值学习和策略学习结合起来。 Value Network and Policy Network 离散状态下状态价值函数可以写成: \(V_{\pi}(s) = \sum_{a} \pi(a|s) \cdot Q_{\pi}(s,a).\) 但是其中策略函数\(\pi(a|s)\)和动作价值函数\(Q_{\pi}(s,a)\)都不知道,可以分别用两个神经网络 2024-12-04 AI > RL > DRL-王树森 #RL
1.3 策略学习 复习策略函数 复习策略函数的定义:策略函数是一个概率密度函数,把state作为输入,输出一个所有action的概率分布。 策略网络policy network 用神经网络来近似策略函数\(\pi\)。 状态价值函数回顾 状态价值函数是对动作价值函数求期望(关于action积分(或累加和),将action消掉)。 近似状态价值函数:用策略网络近似策略函数, 2024-12-04 AI > RL > DRL-王树森 #RL
1.2 value based RL 复习 在学习DQN之前,首先复习一些基础知识。在一局游戏中,把从起始到结束的所有奖励记作:\(R_1, \cdots, R_t, \cdots, R_n\)。 定义折扣率\(\gamma \in [0, 1]\)。折扣回报的定义是: \(U_t = R_t + \gamma \cdot R_{t+1} + \gamma^2 \cdot R_{t+2} + \cdots + \ga 2024-12-04 AI > RL > DRL-王树森 #RL
1.1 DRL基础 概率论复习 随机变量 随机变量是概率论和统计学中的一个重要概念,它用来描述随机试验的结果。 随机变量可以分为两大类:离散型随机变量和连续型随机变量。 离散型随机变量: 这种随机变量的取值是可数的,通常是整数。例如,抛一枚骰子,随机变量可以是骰子的点数,取值范围为1到6。离散型随机变量的概率分布可以通过概率质量函数(Probability Mass Function,PMF)来描 2024-12-04 AI > RL > DRL-王树森 #RL
1. 初探强化学习 1. 强化学习简介 1.1 两种人工智能任务类型 预测型任务 根据数据预测所需输出(有监督学习) 生成数据实例(无监督学习) 决策型任务 在动态环境中采取行动(强化学习) 转变到新的状态 获得即时奖励 随着时间的推移最大化累计奖励 (Learning from interaction in a trial-and-error manner) 1 2024-11-29 AI > RL > 动手学强化学习 #RL
kimi指令精读论文 1. 安装zetore 和 浏览器插件 安装Zotero6和Google浏览器插件Zotero Connector 设置语言 编辑->首选项->高级->常规 选择中文简体 设置文件存储位置 新建分类 导入文献 英文文献,点击zotero插件即可 doi 中文 安装茉莉花插件 https://zotero-zh.netlify.ap 2024-11-29 科研 > 阅读论文 #kimi