55 | Page | 彩潭有鲤的札记

PyTorch

type

status

date

slug

summary

tags

category

icon

password

Property

View/Reshape/Resize_

reshape view之间的区别：

reshape/view和resize_之间的区别：

reshape(1,-1)转化成1行；reshape(2,-1)转换成两行；reshape(-1,1)转换成1列；reshape(-1,2)转化成两列

Broadcast自动扩展

文章详情

PyTorch

type

status

date

slug

summary

tags

category

icon

password

Property

Cat

cat是concatnate的意思，拼接联系在一起

Stack

文章详情

PyTorch

type

status

date

slug

summary

tags

category

icon

password

Property

Basic

a + b ——torch.add()

a - b ——torch.sub()

a * b ——torch.mul()

a / b ——torch.div()

矩阵相乘

文章详情

PyTorch

type

status

date

slug

summary

tags

category

icon

password

Property

torch.Tensor 是包的核心类。如果将其属性 .requires_grad 设置为 True，则会开始跟踪针对 tensor 的所有操作。完成计算后，可以调用 .backward() 来自动计算所有梯度。该张量的梯度将累积到 .grad 属性中。

要停止 tensor 历史记录的跟踪，可以调用 .detach()，它将其与计算历史记录分离，并防止将来的计算被跟踪。

文章详情

PyTorch

type

status

date

slug

summary

tags

category

icon

password

Property

节省内存

运行一些操作可能会导致为新结果分配内存。例如，如果用Y = X + Y，将取消引用Y指向的张量，而是指向新分配的内存处的张量：

这是不可取的，机器学习可能有数百兆的参数，并且一秒内多次更新所有参数。通常情况下，最好原地执行这些更新。如果不原地更新，其他引用仍然会指向旧的内存位置，这样某些代码可能会无意中引用旧的参数。

执行原地操作非常简单，可以用切片表示法将操作的结果分配给先前分配的数组，例如Y[:] = <expression>。下面创建一个新的矩阵Z，其形状与另一个Y相同，使用zeros_like来分配一个全0的块

如果在后续计算中没有重复使用X，也可以使用X[:] = X + Y或X += Y来减少操作的内存开销

文章详情

PyTorch

type

status

date

slug

summary

tags

category

icon

password

Property

命令式编程

命令式编程使用诸如print、“+”和if之类的语句来更改程序的状态，考虑下面这段简单的命令式程序：

Python是一种解释型语言（interpreted language）。因此，当对上面的fancy_func函数求值时，它按顺序执行函数体的操作。也就是说，它将通过对e = add(a, b)求值，并将结果存储为变量e，从而更改程序的状态。接下来的两个语句f = add(c, d)和g = add(e, f)也将执行类似地操作，即执行加法计算并将结果存储为变量。

尽管命令式编程很方便，但可能效率不高。一方面原因，Python会单独执行这三个函数的调用，而没有考虑add函数在fancy_func中被重复调用。如果在一个GPU（甚至多个GPU）上执行这些命令，那么Python解释器产生的开销可能会非常大。此外，它需要保存e和f的变量值，直到fancy_func中的所有语句都执行完毕。这是因为程序不知道在执行语句e = add(a, b)和f = add(c, d)之后，其他部分是否会使用变量e和f。

符号式编程

考虑另一种选择符号式编程（symbolic programming），即代码通常只在完全定义了过程之后才执行计算。这个策略被多个深度学习框架使用，包括Theano和TensorFlow（后者已经获得了命令式编程的扩展）。一般包括以下步骤：

文章详情

PyTorch

type

status

date

slug

summary

tags

category

icon

password

Property

一般来说PyTorch中深度学习训练的数据读取流程是这样的：

创建Dateset

Dataset传递给DataLoader

DataLoader迭代产生训练数据提供给模型

Dataset

pytorch自带数据集

torchvision.datasets模块提供了一些已有数据集的直接导入:

用于image classification：

文章详情

PyTorch

type

status

date

slug

summary

tags

category

icon

password

Property

很多的 loss 函数都有 size_average 和 reduce 两个布尔类型的参数。因为一般损失函数都是直接计算 batch 的数据，因此返回的 loss 结果都是维度为 (batch_size, ) 的向量。

如果 reduce = False，那么 size_average 参数失效，直接返回向量形式的 loss；

如果 reduce = True，那么 loss 返回的是标量

Pytorch最新的版本将弃用这两参数改用reduction：

weight：（张量，可选）可以指定一个一维的Tensor，用来设置每个类别的权重。用C表示类别的个数，Tensor的长度应该为C。当训练集不平衡时该参数十分有用。

size_average:(最新的版本已弃用) 默认为True，此时损失是每个minibatch的平均；如果设成False，则对每个minibatch求和。这个属性只有当reduce参数设置成True时才生效。

reduce:(最新的版本已弃用) 默认为True，此时损失为根据size_average参数的值计算每个minibatch的和或者是平均；如果设置成False，忽略size_average参数的值，并返回每个元素的损失。

文章详情

🐠

PyTorch

type

status

date

slug

summary

tags

category

icon

password

Property

深度学习的优化目标

尽管优化提供了一种最大限度地减少损失函数的方法，但实质上，优化和深度学习的目标是根本不同的。前者主要关注的是最小化目标，后者则关注在给定有限数据量的情况下寻找合适的模型。

例如，训练误差和泛化误差通常不同，由于优化算法的目标函数通常是基于训练数据集的损失函数，因此优化的目标是减少训练误差。但是，深度学习的目标是减少泛化误差，除了使用优化算法来减少训练误差之外，还需要注意过拟合。

如下图所示所述，经验风险是训练数据集的平均损失，而风险则是整个数据群的预期损失。假设只有有限量的训练数据，经验风险函数不如风险函数平滑。

经验风险、期望风险、结构风险

经验风险：基于样本学习的经验进行决策的错误风险。将经验风险最小化，将会使模型对训练样本的学习能力增强，表现为拟合能力增强。显然，一味的经验风险最小化，会使得模型对训练样本过拟合。

期望风险：所谓期望，是对所有可能输入的分布的预测，假定输入的分布服从。则在此分布基础上进行样本训练时，每个样本在总体中的概率是已知的，故对每个训练样本进行决策时，其原来的经验风险可以重新描述为期望风险。由于考虑到了样本在总体中的分布（先验），此时的损失函数更为准确。然而，这种先验知识往往不会事先得到（虽然可以凭借经验进行预测，但始终不是总体的真是分布），因此期望风险是乌托邦。

文章详情

🐠

PyTorch

type

status

date

slug

summary

tags

category

icon

password