null | xing

type

Post

status

Published

date

Jan 31, 2026

slug

summary

tensorboard内容

监控逻辑：

看 Reward/Total Reward 判断整体表现

看什么：mean 是否持续上升

正常值：-500 → 500 → 2000 → 4000+

异常：平台期、断崖下跌、剧烈震荡

看 Reward/Instantaneous Reward 细粒度诊断问题

看什么：定位 Total Reward 异常的具体原因

正常值：-2 → 0 → 3 → 5，偶尔出现 +10 尖峰（到达奖励）

异常：频繁 -20（摔倒）、长期在 0（无效动作）

看 Episode/Timesteps 判断稳定性

看什么：机器人能活多久

正常值：100 → 400 → 1000 → 1500

配合 Reward 诊断：

Timesteps 短 + Reward 低 = 频繁摔倒

Timesteps 长 + Reward 低 = 原地摆烂

Timesteps 长 + Reward 高 = 优秀

看 Loss/Value Loss 判断是否在学习

看什么：价值网络能否准确估计"状态好坏"

正常趋势：100 → 10 → 1（快速下降后稳定）

异常：

持续上升 = 跟不上策略变化

降到接近 0 = 可能过拟合

看 Loss/Policy Loss 判断策略更新是否合理

看什么：策略变化幅度是否适中

正常趋势：0.2 → 0.05 → 0.01（震荡下降）

异常：

突然飙升 > 1.0 = 更新太激进，策略不稳定

持续为 0 = 完全不更新，学习停滞

高位震荡 = 策略不收敛

看 Loss/Entropy Loss 判断探索是否充分

看什么：策略是否被迫保持随机性

当前状态：entropy_loss_scale = 0.0，不显示

如果启用（改为 0.01）：

正常趋势：-2.0 → -1.0 → -0.3（负值逐渐上升 = 熵下降 = σ 下降）

异常：快速上升到 0 = 过早收敛

何时启用：

Total Reward 平台期 + Std Dev 已很小 = 局部最优 → 改为 0.01

复杂任务容易陷入局部最优 → 改为 0.01-0.02

看 Policy/Standard Deviation 判断探索程度

看什么：策略的随机性（σ）

正常趋势：2.0 → 1.5 → 0.8 → 0.5（逐渐下降）

异常：

下降太快（< 0.5 在初期）= 过早收敛

一直 > 2.0 = 没学到东西

后期回升 = 策略不稳定

与 Entropy Loss 关系：

Entropy Loss 是"控制项"，阻止 σ 下降太快

Std Dev 是"观测值"，显示实际的 σ

看 Learning/Learning Rate 判断学习速度是否合理

看什么：参数更新步长，由 KL 自适应调整

正常范围：1e-4 到 2e-3，小幅震荡

异常：

快速归零（< 1e-4）= KL 散度过大，策略更新太激进

持续上升 = KL 散度过小，策略几乎不更新

剧烈震荡 = KL 极不稳定

reward

Reward / Instantaneous reward (mean/min/max)

概念

每一步（0.01秒）机器人得到的奖励分数。

三个统计值

mean: 所有并行环境（num_envs）的平均奖励

max: 表现最好的环境的奖励

min: 表现最差的环境的奖励

曲线分析

Instantaneous reward (mean)： 这是一个典型的 S 型增长曲线。它和 Entropy Loss 的上升是同步的。说明模型每放弃一点随机性（熵减），就换来了更确定的收益（奖励增）。

Instantaneous reward (min)： 注意看这个最低值，一直波动得非常厉害（在 -32 左右）。这说明即便模型整体变强了，环境里依然存在一些“坑”，偶尔还是会触发极低分。

Total reward (max)： 总分稳步上升并维持在高位，证明你的策略在当前环境下已经找到了最优解（或局部最优解）。

Reward / Total reward (mean/min/max)

概念

一个完整Episode（最多1500步）的累计总分。测量机器人完成一次完整任务的总体表现。

曲线分析

Total reward (mean) - 核心表现：

趋势： 从 0 步开始稳步爬升，在 60k 步时达到约 2900 的高点并保持震荡。
分析： 这是一个非常健康的学习曲线。模型从最初的负收益（-500 左右）逆袭到了稳定的正收益。震荡（锯齿状）是正常的，说明环境本身具有一定的随机性。

Total reward (max) - 潜力天花板：

趋势： 极早（约 50k 步）就达到了 6000 以上的峰值。
分析： 这说明你的模型在某些运气极好的情况下（比如完美的初始位置），上限是非常高的。均值（2900）和最高值（6000）之间的差距，暗示了环境中存在很多不可控因素。

Total reward (min) - 稳定性软肋：

趋势： 这是一个值得警惕的信号。即便在 90k 步，最小值依然会跌破 1000。
分析： 1. 极端情况： 虽然模型平均能拿 2900 分，但偶尔会遇到某些“死局”或者出现了致命操作，导致大幅扣分。 2. 鲁棒性不足： 结合 Entropy Loss 接近 0 的状态，这说明模型可能“练死板”了，遇到从未见过的极端场景时，由于缺乏探索性，会表现得极差。

episode

Episode / Total timesteps (mean/min/max)

概念

Episode持续了多少步才结束。测量从环境reset到触发终止条件之间经过了多少个控制步（每步0.01秒）。

为什么重要

Episode长度反映了策略的稳定性：

长Episode意味着机器人能持续稳定运行

短Episode说明策略容易失败

配合Total reward一起看：长且高分=好策略，长但低分=在混时间

曲线分析

1. Episode/ Total timesteps (max) —— 任务长度的上限

趋势： 曲线非常极端，几乎在训练刚开始（约 5k 步）就瞬间拉升到了 750。

分析： 750 很可能是你设置的 max_episode_steps（回合步数上限）。这说明模型非常快就学会了如何“不死”或者如何“拖时间”，直到触发环境的强制结束。

2. Episode/ Total timesteps (mean) —— 平均生存时长

趋势： 这是一个典型的增长曲线。

0 - 10k 步： 平均步数从 550 快速增长到 650 左右。
10k - 97.6k 步： 步数稳定在 670 左右 震荡。

深度分析： 结合 Total reward (mean) 的增长趋势，这意味着模型在 10k 步之后，并不是靠延长生存时间来换取更多分数（因为步数基本没变），而是靠提高单位时间内的得分效率来拿分的。模型变得更“高效”了。

3. Episode/ Total timesteps (min) —— 稳定性底线

趋势： 步数极其不稳定，一直在 62 到 72 之间 剧烈跳动。

分析： * 即使平均步数很高，模型偶尔还是会在极短的时间内（约 60 步）突然失败。

这完美解释了为什么之前的 Total reward (min) 会出现 1000 分：模型在某些情况下会由于致命错误导致“秒死”。

loss

Loss / Policy loss

概念

PPO算法中策略网络（Policy Network）的损失函数值。测量策略更新的幅度和方向是否合理。

Policy loss衡量的是：

策略正在经历多大的改变

是否在朝着增加优势函数（即改进性能）的方向更新

更新是否被裁剪限制住了（防止过度更新）

纵坐标：反映了策略修正的力度。

纵坐标低（数值更负，如 -0.018）： 代表模型发现了当前动作与预期之间存在较大的“优势”（Advantage），算法正在施加较大的梯度来强力修正策略权重，以快速向高奖励区域靠拢。

纵坐标高（数值趋近 0，如 -0.013）： 代表当前策略产生的动作结果基本符合模型预期，或者优势值已经变小。此时算法施加的修正力度较弱，策略进入了微调或稳定阶段。

Loss / Value loss

概念

价值网络（Value Network）的损失函数值。测量价值网络对"状态值"的估计误差。

物理含义

价值网络在学习"从当前状态开始，未来能获得多少总奖励"。

1. 纵坐标（Y-axis）的含义

技术定义：纵坐标代表价值函数（Critic）的均方误差（MSE）。

物理意义：它衡量的是模型对“当前状态能拿到多少分”的预测准确度。数值越高，说明模型对自己能拿多少分“心里没数”；数值越低，说明模型预测的分数与实际拿到的分数越接近。

2. 曲线下降的原因

预测精度提升：在训练初期（0-20k步），数值从超过 0.1 快速下降。这是因为模型正在通过大量的经验学习环境的奖励机制。

误差收敛：随着训练进行，模型（Critic 部分）越来越擅长估算不同状态下的期望收益。曲线持续下降意味着模型的“判断力”在增强，预测误差在不断缩小。

3. 曲线趋于平缓（后期）的原因

进入稳定期：在 60k 步之后，曲线在 0.0127 附近变得非常平坦。这对应了之前 Total reward 曲线进入平台期的表现。

收敛标志：当价值损失不再下降时，说明在当前环境下，模型对分数预测的准确度已经达到了极限。这也意味着策略（Policy）已经足够稳定，不再产生让模型感到意外的收益波动。

entropy loss

强化学习（Reinforcement Learning） 训练过程中的 策略熵损失（Entropy Loss） 曲线

为什么曲线是上升的？（核心逻辑）

在强化学习（如 PPO）中，熵（Entropy）代表了策略的随机性或探索性：

高熵： 动作分布很均匀，模型在“乱试”（探索）。

低熵： 动作分布很集中，模型很确定该选哪个动作（收敛）。

初期（曲线在最下面）： 模型完全是瞎蒙的（熵很大）。因为前面带了负号，所以数值很小（比如 -0.07）。这说明模型在疯狂探索。

后期（曲线往上升）： 模型学会了套路，动作变得固定了（熵变小了）。负号后面的那个数变小了，整体数值就往 0 靠近。

如果你的动作是连续的（比如控制力度、角度），模型通常用正态分布。当模型变得极度自信，动作的波动范围（标准差）变得非常小时，数学上的熵就会变成负值。 负（公式里的号） 负（熵本身的值） = 正数。 所以，当你的曲线涨到 0 以上时，意味着模型已经进入了“极度自信”的状态。

policy

Policy / Standard deviation

概念

策略输出的高斯分布的标准差（σ）。测量策略的随机性程度。

标准差控制动作的"抖动幅度"：

σ大（如2.0）:

相同的状态，每次采样的动作差异很大
探索性强，但执行不稳定

σ小（如0.4）:

相同的状态，每次采样的动作几乎一样
执行稳定，但探索不足

1. 纵坐标的含义：动作的“波动范围”

技术定义：纵坐标表示策略输出分布的标准差。

物理意义：它代表了模型在选择动作时的不确定性。

高标准差：动作分布很宽，模型在进行大量的探索（Exploration），动作比较随机。
低标准差：动作分布很窄，模型趋向于利用（Exploitation），动作非常固定且自信。

2. 曲线趋势分析：从“广撒网”到“精定位”

初期（0 - 20k 步）：标准差从 2.0 以上 极速下降。这说明模型在极短时间内意识到“乱跳”是没有收益的，开始迅速收缩动作范围，锁定可能有奖赏的区域。

中期（20k - 60k 步）：下降斜率放缓，这与你之前看到的 Reward（奖励） 快速拉升期完全吻合。模型在边微调动作、边拿分。

后期（60k 步以后）：数值最终稳定在 0.176 左右。这意味着模型已经形成了极其稳定的“肌肉记忆”。

潜在风险：如果此时 Reward 还达不到预期，由于标准差已经降得这么低，模型基本已经“丧失了好奇心”，很难再通过自主探索发现更好的新策略了。

learing

Learning / Learning rate

概念

神经网络参数更新时的步长（学习率）。测量每次梯度下降时参数调整的幅度。

本项目使用KL散度来动态调整学习率