1. 绪论 智能识别系统的组成: 1.信息获取(数据采集): 对信号、图像、数值表(数据)的采集。 即:要用计算机可以运算的符号来表示所研究的对象。如图像:测量、采样、量化等。 2.预处理: 减小或消除模式获取过程中的噪声、干扰、提高SN; 加强有用信息,进行复原等,如减小数据图像模糊及几何失真,提高清晰度; 非线性模式转化成线性模式。 这个环节的内容及方法很多:如滤波、变 2024-12-07 AI > ML > PR & ML #ML
17. 读写分离 1. 读写分离 1.1 介绍 读写分离,简单地说是把对数据库的读和写操作分开,以对应不同的数据库服务器。主数据库提供写操作,从数据库提供读操作,这样能有效地减轻单台数据库的压力。 通过MyCat即可轻易实现上述功能,不仅可以支持MySQL,也可以支持Oracle和SQL Server。 1.2 一主一从 MySQL的主从复制,是基于二进制日志(binlog)实现的。 1.3 2024-12-06 后端开发 > MySQL #MySQL
16. 分库分表 3.1 介绍 3.1.1 问题分析 随着互联网及移动互联网的发展,应用系统的数据量也是成指数式增长,若采用单数据库进行数据存储,存在以下性能瓶颈: IO瓶颈:热点数据太多,数据库缓存不足,产生大量磁盘IO,效率较低。请求数据太多,带宽不够,网络IO瓶颈。 CPU瓶颈:排序、分组、连接查询、聚合统计等SQL会耗费大量的CPU资源,请求数太多,CPU出现瓶颈。 为了解决上述问题, 2024-12-06 后端开发 > MySQL #MySQL
15. 主从复制 2.1 概述 主从复制是指将主数据库的 DDL 和 DML 操作通过二进制日志传到从库服务器中,然后在从库上对这 些日志重新执行(也叫重做),从而使得从库和主库的数据保持同步。 MySQL支持一台主库同时向多台从库进行复制,从库同时也可以作为其他从服务器的主库,实现链状复制。 MySQL 复制的优点主要包含以下三个方面: 主库出现问题,可以快速切换到从库提供服务。 实现读写分离 2024-12-06 后端开发 > MySQL #MySQL
14. 日志 1.1 错误日志 错误日志是 MySQL 中最重要的日志之一,它记录了当 mysqld 启动和停止时,以及服务器在运行过程中发生任何严重错误时的相关信息。当数据库出现任何故障导致无法正常使用时,建议首先查看此日志。 该日志是默认开启的,默认存放目录 /var/log/,默认的日志文件名为 mysqld.log 。查看日志 置: show variables like '%log_erro 2024-12-06 后端开发 > MySQL #MySQL
9.1 多智能体强化学习 基本概念 多智能体强化学习有四种常见的设定: Fully cooperative:各个agent的利益一致,获得的奖励相同,比如同一条生产流水线上的各个机器。 Fully competitive:各个agent相互竞争,一方的收获是另一方的损失。 Mixed Cooperative & competitive:各个agent之间即存在合作也存在竞争,比如moba游戏中多人 2024-12-04 AI > RL > DRL-王树森 #RL
8.1 策略学习的高级技巧:置信域策略优化 (TRPO) 策略学习的高级技巧:置信域策略优化 (TRPO) PPO算法就是在TRPO的基础上推出的。 Trust Region Policy Optimization (TRPO) 置信域策略优化 (trust region policy optimization, TRPO) 是一种策略学习方法,跟以前学的策略梯度有很多相似之处。跟策略梯度方法相比,TRPO 有两个优势:第一,TRPO 表现 2024-12-04 AI > RL > DRL-王树森 #RL
7.2 确定策略梯度 (DPG) 确定策略梯度 (DPG) 确定策略梯度 (deterministic policy gradient, DPG) 是最常用的连续控制方法。DPG 是一种 actor-critic 方法,它有一个策略网络 (演员), 一个价值网络 (评委)。策略网络控制智能体做运动,它基于状态\(s\)做出动作\(a\)。价值网络不控制智能体,只是基于状态\(s\)给动作\(a\)打分,从而指导策略网络做出改 2024-12-04 AI > RL > DRL-王树森 #RL
7.1 连续控制 连续控制 前面的内容全部都是离散控制,即动作空间是一个离散的集合,比如超级玛丽游戏中的动作空间\(A=\{左,右,上\}\)是个离散集合。本章的内容是连续控制,即动作空间是个连续集合,比如汽车的转向\(A=[-40^{\circ},40^{\circ}]\)就是连续集合。如果把连续动作空间做离散化,那么离散控制的方法就能直接解决连续控制问题;先讨论连续集合的离散化。然而更好的办法是直接用连续控制 2024-12-04 AI > RL > DRL-王树森 #RL
6.3 Advantage Actor-Critic (A2C) Advantage Actor-Critic (A2C) 之前我们推导出了带基线的策略梯度,并且对策略梯度做了蒙特卡洛近似,得到策略梯度的一个无偏估计: \(g(s, a; \theta) = \left[ Q_\pi(s, a) - V_\pi(s) \right] \cdot \nabla_\theta \ln \pi(a | s; \theta). \quad (8.2)\) 公式 2024-12-04 AI > RL > DRL-王树森 #RL