1.5 ALPHAGO 围棋游戏介绍 High level Ideas 训练包含3步: 用behavior cloning初始化策略网络 用策略梯度训练策略网络 策略网络训练完之后,用它来训练价值网络。 Behavior Cloning ChatGPT介绍什么是Behavior cloning: Behavior cloning(行为克隆)是一种强化学习中的学习方法,其中一个模型(通常是神 2024-12-04 AI > RL > DRL-王树森 #RL
1.4 Actor-Critic Method Actor-Critic方法把价值学习和策略学习结合起来。 Value Network and Policy Network 离散状态下状态价值函数可以写成: \(V_{\pi}(s) = \sum_{a} \pi(a|s) \cdot Q_{\pi}(s,a).\) 但是其中策略函数\(\pi(a|s)\)和动作价值函数\(Q_{\pi}(s,a)\)都不知道,可以分别用两个神经网络 2024-12-04 AI > RL > DRL-王树森 #RL
1.3 策略学习 复习策略函数 复习策略函数的定义:策略函数是一个概率密度函数,把state作为输入,输出一个所有action的概率分布。 策略网络policy network 用神经网络来近似策略函数\(\pi\)。 状态价值函数回顾 状态价值函数是对动作价值函数求期望(关于action积分(或累加和),将action消掉)。 近似状态价值函数:用策略网络近似策略函数, 2024-12-04 AI > RL > DRL-王树森 #RL
1.2 value based RL 复习 在学习DQN之前,首先复习一些基础知识。在一局游戏中,把从起始到结束的所有奖励记作:\(R_1, \cdots, R_t, \cdots, R_n\)。 定义折扣率\(\gamma \in [0, 1]\)。折扣回报的定义是: \(U_t = R_t + \gamma \cdot R_{t+1} + \gamma^2 \cdot R_{t+2} + \cdots + \ga 2024-12-04 AI > RL > DRL-王树森 #RL
1.1 DRL基础 概率论复习 随机变量 随机变量是概率论和统计学中的一个重要概念,它用来描述随机试验的结果。 随机变量可以分为两大类:离散型随机变量和连续型随机变量。 离散型随机变量: 这种随机变量的取值是可数的,通常是整数。例如,抛一枚骰子,随机变量可以是骰子的点数,取值范围为1到6。离散型随机变量的概率分布可以通过概率质量函数(Probability Mass Function,PMF)来描 2024-12-04 AI > RL > DRL-王树森 #RL
1. 初探强化学习 1. 强化学习简介 1.1 两种人工智能任务类型 预测型任务 根据数据预测所需输出(有监督学习) 生成数据实例(无监督学习) 决策型任务 在动态环境中采取行动(强化学习) 转变到新的状态 获得即时奖励 随着时间的推移最大化累计奖励 (Learning from interaction in a trial-and-error manner) 1 2024-11-29 AI > RL > 动手学强化学习 #RL
kimi指令精读论文 1. 安装zetore 和 浏览器插件 安装Zotero6和Google浏览器插件Zotero Connector 设置语言 编辑->首选项->高级->常规 选择中文简体 设置文件存储位置 新建分类 导入文献 英文文献,点击zotero插件即可 doi 中文 安装茉莉花插件 https://zotero-zh.netlify.ap 2024-11-29 科研 > 阅读论文 #kimi
10. std::atomic std::atomic 是 C++11 标准库中的一个模板类,用于实现多线程环境下的原子操作。它提供了一种线程安全的方式来访问和修改共享变量,可以避免多线程环境中的数据竞争问题。 std::atomic 的使用方式类似于普通的 C++ 变量,但是它的操作是原子性的。也就是说,在多线程环境下,多个线程同时对同一个 std::atomic 变量进行操作时,不会出现数据竞争问题。 以下是一些常 2024-11-27 c++ > c++11 多线程编程 #c++
9.异步并发—— async future packaged_task promise 1. async 、 future 是C++11引入的一个函数模板,用于异步执行一个函数,并返回一个std::future对象,表示异步操作的结果。使用std::async可以方便地进行异步编程,避免了手动创建线程和管理线程的麻烦。下面是一个使用std::async的案例: 123456789101112131415#include <iostream>#include <f 2024-11-27 c++ > c++11 多线程编程 #c++
8. C++11 跨平台线程池 跨平台线程池实现 它使用 C++11 标准库中的 std::thread、std::mutex、std::condition_variable、std::function 和 std::queue 等组件实现。 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495 2024-11-27 c++ > c++11 多线程编程 #c++