9多分类问题

发表于2025-11-12|更新于2025-11-12|pytorch刘二大人

|浏览量:

使用softmax 00:01:46.755 00:01:58.457

十个分类神经网络应该如何设计

00:03:21.365 希望的要求：输出之间竞争性输出就是一个分布 1. 概率大于0 2. 概率求和为1 00:08:00.963

00:09:30.429 00:10:29.210

求和之后结果为100:12:58.619

00:14:59.977 交叉熵 00:18:14.365

00:19:36.942 00:20:50.262

00:21:47.606 00:22:31.144

最后一层是不需要手动进行非线性激活的，因为交叉熵损失会直接激活

00:24:38.539 00:24:21.657 2表示这个第二个元素最大 0表示第0个元素最大 1表示第一个元素最大

y_pred和预测的比较拟合，所以第一个预测算出来的损失会比较小 00:26:14.653

00:26:40.399 思考交叉熵和nll损失的区别

00:29:06.551 这里我们要引入测试的功能

代码实现： 00:29:52.698 不适用sigmod了，改用relu 00:30:08.431 00:30:14.345

优化器 00:30:23.356

这里最主要的区别，就是把图像转换成图像张量

单色就是单通道，多色就是多通道一般是三通道 00:33:41.502

opencv中常获取的图像信息：w * H * c 但是在pytorch中需要把c放到最前面 00:33:57.790

00:34:16.453 通道、、宽、、高利用transforms的totesonor实现从pil ->pytorch

normailize 00:36:35.981

normal就是为了将数据转换成（0，1） normalize第一个是μ 第二个参数是 σ

全连接神经网络需要时右边的列表

00:40:38.006 784表示列数 -1表示 00:42:32.533

00:45:23.376 enumerate是为了能够获取当前训练的轮数） 00:48:45.600

==测试== 00:48:56.960 不需要进行梯度这里使用with torch.no_grad()就可以实现这个作用域内的代码不会进行梯度计算

dim表示维度，这里表示一行 00:48:06.376

1	total+=labels.size(0)

对应上面的（N，1）的第一个元素也就是total加N

将推测出来的分类也就是predicted跟labels作比较如果为真就是1，假就为0

将正确的数量除以总数量

一轮训练一轮测试 00:50:12.320

注释是每十轮进行一次测试

这样的全连接00:52:23.768 00:52:49.617

00:53:14.233 自动特征提取 cnn

手动特征提取fft、小波

总结

softmax 和交叉熵损失

文章作者: Xing

文章链接: http://example.com/2025/11/12/pytorch%E5%88%98%E4%BA%8C%E5%A4%A7%E4%BA%BA/9%E5%A4%9A%E5%88%86%E7%B1%BB%E9%97%AE%E9%A2%98/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Xing！

调试学习资源神经网络计算机网络深度学习 PyTorch 优化算法线性回归优化多分类

相关推荐

5pytorch实现线性回归

使用随机梯度下降 00:02:18.384 00:03:07.590 上节课的例子因为梯度不会自动清零，为了使这次的梯度不影响下次的梯度，进行手工清零线性回归就是恨简单的神经网络 00:06:32.614 训练步骤： 1. 前馈:算损失 2. 反馈：算梯度 3. 更新：使用梯度下降算法更新权重 00:06:33.097 00:06:50.802 要使用mini-batch 要一次性将ŷ求出来所以需要使用矩阵运算这里运用numpy的广播方式 00:09:36.616 就是矩阵扩充 00:10:14.863 00:11:06.105 w应该是3x3 00:12:01.227 00:12:13.883 实际上也就是向量化00:12:48.104 00:12:53.501 00:13:20.043 00:14:06.039 potrch中计算导数不再是重点因为00:13:52.605 有函数会自动计算导数重点在于构造计算图00:14:28.914 00:14:57.107 这个被称为一个线性单元 ...

11卷积神经网络（高级）

之前学习的都是线性的串行结构就是上一个的输出作为下个的输入 00:02:06.381 convoltion：卷积 pooling：池化 softmax：输出 other：拼接层为了减少代码冗余： - 使用函数调用 - 构造类 00:04:05.180 发现这些快长得都一样所以把其封装成类 00:06:02.235 有一些参数比较难选比如kernel选哪个， googlenet的思路是，再一个块中，使用多个kernnel 然后对结果进行评价，让最优的kernel权重增加 00:09:21.370 对于每一条路，变换之后bwh必须相同 c可以不同 00:11:39.744 00:11:51.236 00:11:59.066 00:13:31.719 00:13:30.545 00:13:30.545 求和也就是信息融合 00:17:39.604 00:19:24.494 上面这个的运算量太大了 00:20:06.613 直接变为原来的十分之一这个也就是1x1的卷积神经网络的作用网络中的网络：1x1卷积 00:...

7处理多维输入

输入有多个特征每一行被叫做一个样本 00:01:22.739 meiyili 每一列被称为特征 excel常用空格 tab ，进行分割 00:10:22.816 00:10:06.374 00:12:37.613 00:13:38.352 00:14:24.317 一组一组的运算转换成矩阵运算（向量化的运算）为什么要变换：因为可以并行计算，这个样利用cpu或者gpu的并行计算能力 00:15:14.284 上图是上节课的可以用于与这节课的图片进行对比把多层logist回归相连就可以构建多层神将网路 00:17:12.583 00:17:28.402 这里列的数量对应特征00:17:50.766 00:18:23.748 这样可以再接一层，让2维的再降到1维 00:20:31.314 00:21:21.153 我们的目标是8d->1d的非线性变换函数 σ函数被叫做激活函数 00:23:26.486 可以维度一直下降也可以维度一直上升 00:24:23.852 中间的隐层越多，学习能力越强如果...

深度学习顺序 1. 准备数据集 2. 模型选择 3. 训练 4. 推理 00:01:57.536 00:02:38.739 00:03:56.345 仅有输入的数据，在测试或者推理阶段 00:04:40.157 数据集交给算法，得到预测算法，使用模型只进行预测 00:05:46.753 知道输出值-》监督学习测试集用于评价模型好坏数据集分成两个部分 00:08:42.608 00:10:06.592 00:12:21.957 00:13:54.806 深度学习训练最大问题：过拟合过拟合：把图像中的噪声也学进去了比如训练集中的小猫都很可爱，但是测试集的小猫不可爱，导致测试中无法准确识别需要模型有比较好的泛化能力训练集分成两份开发集用于对训练集进行评估，防止过拟合评估比较好好再把所有的训练集重新训练，之后丢给测试集 00:15:00.775 00:17:13.524 其实就是找到f(x) 线性模型是最基本的，可以最开始测试是否可用预测出来的加上y heater 00:20:28.689 如何找到斜率为2 ...

目标实现一个学习系统理解简单的神经网络（nn）/dl 00:11:46.636 人类智能 1. 通过信息进行推理 2. 看到照片与抽象概念结合：预测 00:19:29.936 mechine learning 就是代替人脑目前常用的都是监督学习算法思维： - 穷举 - 贪心 - 分治 - 动态规划深度学习：有数据集找出算法机器学习计算过程也就是函数来源于数据，而不是人工（基于统计） 00:24:01.499 dl属于表示学习rl 00:28:28.199 求原函数首先构造知识库 00:29:14.598 00:29:41.156 实现类似人类智能的就算ai 00:32:34.716 对于复杂问题，基于规则的代码，人类难以维护经典机器学习：手工提取特征。最重要要把 00:34:05.608 重点是使用机器学习找到中间的f(x) 00:34:40.521 表示学习还要通过学习获得特征维度诅咒 00:36:43.485 特征2维就需要102 如果是3维就103 00:39:08.956 10维空间映射到3维 0...

3梯度下降算法的实现

00:02:00.228 使用随机猜测寻找ŷ − y 最小值 00:03:10.941 00:03:41.947 两个权重w1 w2 00:04:06.938 这个搜索量太大了穷举法搜不过来搜索区间过大导致问题 ==分治思想== 00:05:02.292 00:05:11.770 对于两个权重，进行划分，只考虑这点00:06:02.911 image.png 使用这几个点代表所有的空间 00:07:07.962 00:07:29.136 分治思想的缺点，会有如上的情况，导致无法获取最低点。有可能会错过比较好的低点 00:09:26.071 要求函数的最小值 00:10:16.901 00:10:41.308 00:11:34.211利用梯度来判断这个点需要进行的平移方向，也就是如果梯度导数 > 0 ,也就是这个点右移会上升所以应该选择导数的负方向（下面公式中是负号），用以趋近最低点 00:12:34.364 学习率最好选的小一点上面的算法思想： ==贪心== 00:14:53.079 ...