type
Post
status
Published
date
Jan 31, 2026
slug
summary
tags
tensorboard
robotics
强化学习
category
技术
icon
password
文本

tensorboard内容

监控逻辑:
  1. 看 Reward/Total Reward 判断整体表现
看什么:mean 是否持续上升
正常值:-500 → 500 → 2000 → 4000+
异常:平台期、断崖下跌、剧烈震荡
  1. 看 Reward/Instantaneous Reward 细粒度诊断问题
看什么:定位 Total Reward 异常的具体原因
正常值:-2 → 0 → 3 → 5,偶尔出现 +10 尖峰(到达奖励)
异常:频繁 -20(摔倒)、长期在 0(无效动作)
  1. 看 Episode/Timesteps 判断稳定性
看什么:机器人能活多久
正常值:100 → 400 → 1000 → 1500
配合 Reward 诊断:
  • Timesteps 短 + Reward 低 = 频繁摔倒
  • Timesteps 长 + Reward 低 = 原地摆烂
  • Timesteps 长 + Reward 高 = 优秀
  1. 看 Loss/Value Loss 判断是否在学习
看什么:价值网络能否准确估计"状态好坏"
正常趋势:100 → 10 → 1(快速下降后稳定)
异常:
  • 持续上升 = 跟不上策略变化
  • 降到接近 0 = 可能过拟合
  1. 看 Loss/Policy Loss 判断策略更新是否合理
看什么:策略变化幅度是否适中
正常趋势:0.2 → 0.05 → 0.01(震荡下降)
异常:
  • 突然飙升 > 1.0 = 更新太激进,策略不稳定
  • 持续为 0 = 完全不更新,学习停滞
  • 高位震荡 = 策略不收敛
  1. 看 Loss/Entropy Loss 判断探索是否充分
看什么:策略是否被迫保持随机性
当前状态:entropy_loss_scale = 0.0,不显示
如果启用(改为 0.01):
  • 正常趋势:-2.0 → -1.0 → -0.3(负值逐渐上升 = 熵下降 = σ 下降)
  • 异常:快速上升到 0 = 过早收敛
何时启用:
  • Total Reward 平台期 + Std Dev 已很小 = 局部最优 → 改为 0.01
  • 复杂任务容易陷入局部最优 → 改为 0.01-0.02
  1. 看 Policy/Standard Deviation 判断探索程度
看什么:策略的随机性(σ)
正常趋势:2.0 → 1.5 → 0.8 → 0.5(逐渐下降)
异常:
  • 下降太快(< 0.5 在初期)= 过早收敛
  • 一直 > 2.0 = 没学到东西
  • 后期回升 = 策略不稳定
与 Entropy Loss 关系:
  • Entropy Loss 是"控制项",阻止 σ 下降太快
  • Std Dev 是"观测值",显示实际的 σ
  1. 看 Learning/Learning Rate 判断学习速度是否合理
看什么:参数更新步长,由 KL 自适应调整
正常范围:1e-4 到 2e-3,小幅震荡
异常:
  • 快速归零(< 1e-4)= KL 散度过大,策略更新太激进
  • 持续上升 = KL 散度过小,策略几乎不更新
  • 剧烈震荡 = KL 极不稳定
 

reward

Reward / Instantaneous reward (mean/min/max)

notion image
概念
每一步(0.01秒)机器人得到的奖励分数。
三个统计值
  • mean: 所有并行环境(num_envs)的平均奖励
  • max: 表现最好的环境的奖励
  • min: 表现最差的环境的奖励
 
曲线分析
  • Instantaneous reward (mean): 这是一个典型的 S 型增长曲线。它和 Entropy Loss 的上升是同步的。说明模型每放弃一点随机性(熵减),就换来了更确定的收益(奖励增)。
  • Instantaneous reward (min): 注意看这个最低值,一直波动得非常厉害(在 -32 左右)。这说明即便模型整体变强了,环境里依然存在一些“坑”,偶尔还是会触发极低分。
  • Total reward (max): 总分稳步上升并维持在高位,证明你的策略在当前环境下已经找到了最优解(或局部最优解)
 

Reward / Total reward (mean/min/max)

notion image
概念
一个完整Episode(最多1500步)的累计总分。测量机器人完成一次完整任务的总体表现。
 
曲线分析
  • Total reward (mean) - 核心表现:
    • 趋势: 从 0 步开始稳步爬升,在 60k 步时达到约 2900 的高点并保持震荡。
    • 分析: 这是一个非常健康的学习曲线。模型从最初的负收益(-500 左右)逆袭到了稳定的正收益。震荡(锯齿状)是正常的,说明环境本身具有一定的随机性。
  • Total reward (max) - 潜力天花板:
    • 趋势: 极早(约 50k 步)就达到了 6000 以上的峰值。
    • 分析: 这说明你的模型在某些运气极好的情况下(比如完美的初始位置),上限是非常高的。均值(2900)和最高值(6000)之间的差距,暗示了环境中存在很多不可控因素。
  • Total reward (min) - 稳定性软肋:
    • 趋势: 这是一个值得警惕的信号。即便在 90k 步,最小值依然会跌破 1000
    • 分析: 1. 极端情况: 虽然模型平均能拿 2900 分,但偶尔会遇到某些“死局”或者出现了致命操作,导致大幅扣分。 2. 鲁棒性不足: 结合 Entropy Loss 接近 0 的状态,这说明模型可能“练死板”了,遇到从未见过的极端场景时,由于缺乏探索性,会表现得极差。
 

episode

Episode / Total timesteps (mean/min/max)

notion image
概念
Episode持续了多少步才结束。测量从环境reset到触发终止条件之间经过了多少个控制步(每步0.01秒)。
为什么重要
Episode长度反映了策略的稳定性:
  • 长Episode意味着机器人能持续稳定运行
  • 短Episode说明策略容易失败
  • 配合Total reward一起看:长且高分=好策略,长但低分=在混时间
 
曲线分析
1. Episode/ Total timesteps (max) —— 任务长度的上限
  • 趋势: 曲线非常极端,几乎在训练刚开始(约 5k 步)就瞬间拉升到了 750
  • 分析: 750 很可能是你设置的 max_episode_steps(回合步数上限)。这说明模型非常快就学会了如何“不死”或者如何“拖时间”,直到触发环境的强制结束。
2. Episode/ Total timesteps (mean) —— 平均生存时长
  • 趋势: 这是一个典型的增长曲线。
    • 0 - 10k 步: 平均步数从 550 快速增长到 650 左右。
    • 10k - 97.6k 步: 步数稳定在 670 左右 震荡。
  • 深度分析: 结合 Total reward (mean) 的增长趋势,这意味着模型在 10k 步之后,并不是靠延长生存时间来换取更多分数(因为步数基本没变),而是靠提高单位时间内的得分效率来拿分的。模型变得更“高效”了。
3. Episode/ Total timesteps (min) —— 稳定性底线
  • 趋势: 步数极其不稳定,一直在 62 到 72 之间 剧烈跳动。
  • 分析: * 即使平均步数很高,模型偶尔还是会在极短的时间内(约 60 步)突然失败。
    • 这完美解释了为什么之前的 Total reward (min) 会出现 1000 分:模型在某些情况下会由于致命错误导致“秒死”。
 

loss

Loss / Policy loss

notion image
概念
PPO算法中策略网络(Policy Network)的损失函数值。测量策略更新的幅度和方向是否合理。
Policy loss衡量的是:
  • 策略正在经历多大的改变
  • 是否在朝着增加优势函数(即改进性能)的方向更新
  • 更新是否被裁剪限制住了(防止过度更新)
 
纵坐标:反映了策略修正的力度
  • 纵坐标低(数值更负,如 -0.018): 代表模型发现了当前动作与预期之间存在较大的“优势”(Advantage),算法正在施加较大的梯度来强力修正策略权重,以快速向高奖励区域靠拢。
  • 纵坐标高(数值趋近 0,如 -0.013): 代表当前策略产生的动作结果基本符合模型预期,或者优势值已经变小。此时算法施加的修正力度较弱,策略进入了微调或稳定阶段。
 
 

Loss / Value loss

notion image
概念
价值网络(Value Network)的损失函数值。测量价值网络对"状态值"的估计误差。
物理含义
价值网络在学习"从当前状态开始,未来能获得多少总奖励"。
 
1. 纵坐标(Y-axis)的含义
  • 技术定义:纵坐标代表价值函数(Critic)的均方误差(MSE)
  • 物理意义:它衡量的是模型对“当前状态能拿到多少分”的预测准确度。数值越高,说明模型对自己能拿多少分“心里没数”;数值越低,说明模型预测的分数与实际拿到的分数越接近。
2. 曲线下降的原因
  • 预测精度提升:在训练初期(0-20k步),数值从超过 0.1 快速下降。这是因为模型正在通过大量的经验学习环境的奖励机制。
  • 误差收敛:随着训练进行,模型(Critic 部分)越来越擅长估算不同状态下的期望收益。曲线持续下降意味着模型的“判断力”在增强,预测误差在不断缩小。
3. 曲线趋于平缓(后期)的原因
  • 进入稳定期:在 60k 步之后,曲线在 0.0127 附近变得非常平坦。这对应了之前 Total reward 曲线进入平台期的表现。
  • 收敛标志:当价值损失不再下降时,说明在当前环境下,模型对分数预测的准确度已经达到了极限。这也意味着策略(Policy)已经足够稳定,不再产生让模型感到意外的收益波动。
 

entropy loss

notion image
强化学习(Reinforcement Learning) 训练过程中的 策略熵损失(Entropy Loss) 曲线
 
 
为什么曲线是上升的?(核心逻辑)
在强化学习(如 PPO)中,熵(Entropy)代表了策略的随机性探索性
  • 高熵: 动作分布很均匀,模型在“乱试”(探索)。
  • 低熵: 动作分布很集中,模型很确定该选哪个动作(收敛)。
 
  • 初期(曲线在最下面): 模型完全是瞎蒙的(熵很大)。因为前面带了负号,所以数值很小(比如 -0.07)。这说明模型在疯狂探索
  • 后期(曲线往上升): 模型学会了套路,动作变得固定了(熵变小了)。负号后面的那个数变小了,整体数值就往 0 靠近
如果你的动作是连续的(比如控制力度、角度),模型通常用正态分布。当模型变得极度自信,动作的波动范围(标准差)变得非常小时,数学上的熵就会变成负值负(公式里的号) 负(熵本身的值) = 正数。 所以,当你的曲线涨到 0 以上时,意味着模型已经进入了“极度自信”的状态。

policy

Policy / Standard deviation

notion image
概念
策略输出的高斯分布的标准差(σ)。测量策略的随机性程度。
标准差控制动作的"抖动幅度":
  • σ大(如2.0):
    • 相同的状态,每次采样的动作差异很大
    • 探索性强,但执行不稳定
  • σ小(如0.4):
    • 相同的状态,每次采样的动作几乎一样
    • 执行稳定,但探索不足
 
1. 纵坐标的含义:动作的“波动范围”
  • 技术定义:纵坐标表示策略输出分布的标准差。
  • 物理意义:它代表了模型在选择动作时的不确定性
    • 高标准差:动作分布很宽,模型在进行大量的探索(Exploration),动作比较随机。
    • 低标准差:动作分布很窄,模型趋向于利用(Exploitation),动作非常固定且自信。
2. 曲线趋势分析:从“广撒网”到“精定位”
  • 初期(0 - 20k 步):标准差从 2.0 以上 极速下降。这说明模型在极短时间内意识到“乱跳”是没有收益的,开始迅速收缩动作范围,锁定可能有奖赏的区域。
  • 中期(20k - 60k 步):下降斜率放缓,这与你之前看到的 Reward(奖励) 快速拉升期完全吻合。模型在边微调动作、边拿分。
  • 后期(60k 步以后):数值最终稳定在 0.176 左右。这意味着模型已经形成了极其稳定的“肌肉记忆”。
潜在风险:如果此时 Reward 还达不到预期,由于标准差已经降得这么低,模型基本已经“丧失了好奇心”,很难再通过自主探索发现更好的新策略了。

learing

Learning / Learning rate

notion image
概念
神经网络参数更新时的步长(学习率)。测量每次梯度下降时参数调整的幅度。
本项目使用KL散度来动态调整学习率