Binbo

4.1 Sarsa算法

4.1 Sarsa算法

TD 算法是一大类算法的总称。Q 学习是一种 TD 算法，Q 学习的目的是学习最优动作价值函数\(Q^*\)。这里介绍 SARSA, 它也是一种 TD 算法，SARSA 的目的是学习动作价值函数\(Q_\pi(s, a)\)。表格形式的 SARSA 假设状态空间\(S\)和动作空间\(\mathcal{A}\)都是有限集，即集合中元素数量有限。比如，\(S\)中一共有 3 种状态，\(

2024-12-04

AI > RL > DRL-王树森

#RL

3.1 随机排列

3.1 随机排列

Random Permutation（随机排列） What is uniform random permutation? Fisher-Yates 洗牌算法排列数等于n! “uniform random permutation”（均匀随机排列）是指生成一个排列，其中每个可能的排列都以相等的概率出现。具体来说，对于含有n个元素的集合，它的所有n!个排列中的每一个都有相同的概率被选中。

2024-12-04

AI > RL > DRL-王树森

#RL

2.1 蒙特卡洛估计

2.1 蒙特卡洛估计

ChatGPT对蒙特卡洛方法的介绍蒙特卡洛方法是一类基于随机抽样和统计学原理的数值计算方法，其核心思想是通过随机抽样来近似解决问题。这种方法在强化学习、优化问题、概率估计等领域都有广泛的应用。以下是关于蒙特卡洛方法的一些基本概念：基本思想随机抽样：蒙特卡洛方法利用随机抽样的方式来近似计算某个问题的数值解。通过大量的随机样本，可以得到对问题的概率分布、期望值等进行估计的结果。

2024-12-04

AI > RL > DRL-王树森

#RL

1.5 ALPHAGO

1.5 ALPHAGO

围棋游戏介绍 High level Ideas 训练包含3步：用behavior cloning初始化策略网络用策略梯度训练策略网络策略网络训练完之后，用它来训练价值网络。 Behavior Cloning ChatGPT介绍什么是Behavior cloning： Behavior cloning（行为克隆）是一种强化学习中的学习方法，其中一个模型（通常是神

2024-12-04

AI > RL > DRL-王树森

#RL

1.4 Actor-Critic Method

1.4 Actor-Critic Method

Actor-Critic方法把价值学习和策略学习结合起来。 Value Network and Policy Network 离散状态下状态价值函数可以写成： \(V_{\pi}(s) = \sum_{a} \pi(a|s) \cdot Q_{\pi}(s,a).\) 但是其中策略函数\(\pi(a|s)\)和动作价值函数\(Q_{\pi}(s,a)\)都不知道，可以分别用两个神经网络

2024-12-04

AI > RL > DRL-王树森

#RL

1.3 策略学习

1.3 策略学习

复习策略函数复习策略函数的定义：策略函数是一个概率密度函数，把state作为输入，输出一个所有action的概率分布。策略网络policy network 用神经网络来近似策略函数\(\pi\)。状态价值函数回顾状态价值函数是对动作价值函数求期望（关于action积分（或累加和），将action消掉）。近似状态价值函数：用策略网络近似策略函数，

2024-12-04

AI > RL > DRL-王树森

#RL

1.2 value based RL

1.2 value based RL

复习在学习DQN之前，首先复习一些基础知识。在一局游戏中，把从起始到结束的所有奖励记作：\(R_1, \cdots, R_t, \cdots, R_n\)。定义折扣率\(\gamma \in [0, 1]\)。折扣回报的定义是： \(U_t = R_t + \gamma \cdot R_{t+1} + \gamma^2 \cdot R_{t+2} + \cdots + \ga

2024-12-04

AI > RL > DRL-王树森

#RL

1.1 DRL基础

1.1 DRL基础

概率论复习随机变量随机变量是概率论和统计学中的一个重要概念，它用来描述随机试验的结果。随机变量可以分为两大类：离散型随机变量和连续型随机变量。离散型随机变量：这种随机变量的取值是可数的，通常是整数。例如，抛一枚骰子，随机变量可以是骰子的点数，取值范围为1到6。离散型随机变量的概率分布可以通过概率质量函数（Probability Mass Function，PMF）来描

2024-12-04

AI > RL > DRL-王树森

#RL

1. 初探强化学习

1. 初探强化学习

1. 强化学习简介 1.1 两种人工智能任务类型预测型任务根据数据预测所需输出（有监督学习）生成数据实例（无监督学习）决策型任务在动态环境中采取行动（强化学习）转变到新的状态获得即时奖励随着时间的推移最大化累计奖励 (Learning from interaction in a trial-and-error manner) 1

2024-11-29

AI > RL > 动手学强化学习

#RL

kimi指令精读论文

kimi指令精读论文

1. 安装zetore 和浏览器插件安装Zotero6和Google浏览器插件Zotero Connector 设置语言编辑->首选项->高级->常规选择中文简体设置文件存储位置新建分类导入文献英文文献，点击zotero插件即可 doi 中文安装茉莉花插件 https://zotero-zh.netlify.ap

2024-11-29

科研 > 阅读论文

#kimi