维度变换
type
status
date
slug
summary
tags
category
icon
password
Property
目录
目录

View/Reshape/Resize_

reshape view之间的区别:
reshape/viewresize_之间的区别:
reshape(1,-1)转化成1行;reshape(2,-1)转换成两行;reshape(-1,1)转换成1列;reshape(-1,2)转化成两列
 
 

Broadcast自动扩展

合并与分割
type
status
date
slug
summary
tags
category
icon
password
Property
目录
目录

Cat

cat是concatnate的意思,拼接联系在一起
notion image
notion image
 

Stack

 
数学运算与统计属性
type
status
date
slug
summary
tags
category
icon
password
Property
目录
目录

Basic

a + b ——torch.add()
a - b ——torch.sub()
a * b ——torch.mul()
a / b ——torch.div()
notion image
 

矩阵相乘

线性代数与自动求导
type
status
date
slug
summary
tags
category
icon
password
Property
 
目录
目录

 
 
 
torch.Tensor 是包的核心类。如果将其属性 .requires_grad 设置为 True,则会开始跟踪针对 tensor 的所有操作。完成计算后,可以调用 .backward() 来自动计算所有梯度。该张量的梯度将累积到 .grad 属性中。
要停止 tensor 历史记录的跟踪,可以调用 .detach(),它将其与计算历史记录分离,并防止将来的计算被跟踪。
节省内存和矢量化加速
type
status
date
slug
summary
tags
category
icon
password
Property
 

节省内存

运行一些操作可能会导致为新结果分配内存。 例如,如果用Y = X + Y,将取消引用Y指向的张量,而是指向新分配的内存处的张量:
这是不可取的,机器学习可能有数百兆的参数,并且一秒内多次更新所有参数。 通常情况下,最好原地执行这些更新。如果不原地更新,其他引用仍然会指向旧的内存位置,这样某些代码可能会无意中引用旧的参数。
 
执行原地操作非常简单,可以用切片表示法将操作的结果分配给先前分配的数组,例如Y[:] = <expression>。 下面创建一个新的矩阵Z,其形状与另一个Y相同, 使用zeros_like来分配一个全0的块
 
如果在后续计算中没有重复使用X, 也可以使用X[:] = X + YX += Y来减少操作的内存开销
 
符号式编程
type
status
date
slug
summary
tags
category
icon
password
Property
目录
目录

命令式编程

命令式编程使用诸如print、“+”和if之类的语句来更改程序的状态,考虑下面这段简单的命令式程序:
Python是一种解释型语言(interpreted language)。因此,当对上面的fancy_func函数求值时,它按顺序执行函数体的操作。也就是说,它将通过对e = add(a, b)求值,并将结果存储为变量e,从而更改程序的状态。接下来的两个语句f = add(c, d)g = add(e, f)也将执行类似地操作,即执行加法计算并将结果存储为变量。
notion image
尽管命令式编程很方便,但可能效率不高。一方面原因,Python会单独执行这三个函数的调用,而没有考虑add函数在fancy_func中被重复调用。如果在一个GPU(甚至多个GPU)上执行这些命令,那么Python解释器产生的开销可能会非常大。此外,它需要保存ef的变量值,直到fancy_func中的所有语句都执行完毕。这是因为程序不知道在执行语句e = add(a, b)f = add(c, d)之后,其他部分是否会使用变量ef
 

符号式编程

考虑另一种选择符号式编程(symbolic programming),即代码通常只在完全定义了过程之后才执行计算。这个策略被多个深度学习框架使用,包括TheanoTensorFlow(后者已经获得了命令式编程的扩展)。一般包括以下步骤:
Dataset&DataLoader
type
status
date
slug
summary
tags
category
icon
password
Property
目录
目录

一般来说PyTorch中深度学习训练的数据读取流程是这样的:
  1. 创建Dateset
  1. Dataset传递给DataLoader
  1. DataLoader迭代产生训练数据提供给模型
 

Dataset

pytorch自带数据集

torchvision.datasets模块提供了一些已有数据集的直接导入:
  • 用于image classification:
    Pytorch内置损失函数
    type
    status
    date
    slug
    summary
    tags
    category
    icon
    password
    Property
    目录
    目录

    很多的 loss 函数都有 size_averagereduce 两个布尔类型的参数。因为一般损失函数都是直接计算 batch 的数据,因此返回的 loss 结果都是维度为 (batch_size, ) 的向量。
    • 如果 reduce = False,那么 size_average 参数失效,直接返回向量形式的 loss;
    • 如果 reduce = True,那么 loss 返回的是标量
       
      Pytorch最新的版本将弃用这两参数改用reduction:
      • weight:(张量,可选)可以指定一个一维的Tensor,用来设置每个类别的权重。用C表示类别的个数,Tensor的长度应该为C。当训练集不平衡时该参数十分有用。
      • size_average:(最新的版本已弃用) 默认为True,此时损失是每个minibatch的平均;如果设成False,则对每个minibatch求和。这个属性只有当reduce参数设置成True时才生效。
      • reduce:(最新的版本已弃用) 默认为True,此时损失为根据size_average参数的值计算每个minibatch的和或者是平均;如果设置成False,忽略size_average参数的值,并返回每个元素的损失。
      🐠 优化和凸性
      type
      status
      date
      slug
      summary
      tags
      category
      icon
      password
      Property
      目录
      目录

      深度学习的优化目标

      尽管优化提供了一种最大限度地减少损失函数的方法,但实质上,优化和深度学习的目标是根本不同的。前者主要关注的是最小化目标,后者则关注在给定有限数据量的情况下寻找合适的模型。
      例如,训练误差和泛化误差通常不同,由于优化算法的目标函数通常是基于训练数据集的损失函数,因此优化的目标是减少训练误差。但是,深度学习的目标是减少泛化误差,除了使用优化算法来减少训练误差之外,还需要注意过拟合。
      如下图所示所述,经验风险是训练数据集的平均损失,而风险则是整个数据群的预期损失。假设只有有限量的训练数据,经验风险函数不如风险函数平滑。
      notion image
       
      经验风险、期望风险、结构风险
      经验风险:基于样本学习的经验进行决策的错误风险。将经验风险最小化,将会使模型对训练样本的学习能力增强,表现为拟合能力增强。显然,一味的经验风险最小化,会使得模型对训练样本过拟合。
      期望风险:所谓期望,是对所有可能输入的分布的预测,假定输入的分布服从。则在此分布基础上进行样本训练时,每个样本在总体中的概率是已知的,故对每个训练样本进行决策时,其原来的经验风险可以重新描述为期望风险。由于考虑到了样本在总体中的分布(先验),此时的损失函数更为准确。然而,这种先验知识往往不会事先得到(虽然可以凭借经验进行预测,但始终不是总体的真是分布),因此期望风险是乌托邦。
      🐠 梯度下降
      type
      status
      date
      slug
      summary
      tags
      category
      icon
      password
      Property
      目录
      目录

      一维梯度下降

      为什么梯度下降算法可以优化目标函数?
      考虑一类连续可微实值函数, 利用泰勒展开可以得到:
      即在一阶近似中, 可通过处的函数值和一阶导数得出。
      假设在负梯度方向上移动的会减少。 为了简单起见,选择固定步长 ,然后取 , 将其代入泰勒展开式可以得到:
      如果其导数没有消失,就能继续展开,这是因为。 此外,总是可以令小到足以使高阶项变得不相关。 因此,
      🐠 牛顿法
      type
      status
      date
      slug
      summary
      tags
      category
      icon
      password
      Property
      目录
      目录

       
      选择“恰到好处”的学习率 是很棘手的。 如果把它选得太小,就没有什么进展;如果太大,得到的解就会振荡,甚至可能发散。 如果可以自动确定,或者完全不必选择学习率,会怎么样?
      除了考虑目标函数的值和梯度、还考虑它的曲率的二阶方法可以帮我们解决这个问题。 虽然由于计算代价的原因,这些方法不能直接应用于深度学习,但为如何设计高级优化算法提供了有用的思维直觉,可以模拟许多理想特性。
       

      牛顿法

      回顾一些函数 的泰勒展开式,事实上可以把它写成
      为了避免繁琐的符号,将 定义为Hessian,是矩阵。
      的值很小且问题很简单时, 很容易计算。 但对于深度神经网络,考虑到可能非常大,个条目的存储代价会很高, 此外通过反向传播进行计算可能雪上加霜。
      🐠 随机梯度下降与动态学习率
      type
      status
      date
      slug
      summary
      tags
      category
      icon
      password
      Property
      目录
      目录

       

      随机梯度更新

      在深度学习中,目标函数通常是训练数据集中每个样本的损失函数的平均值。给定 个样本的训练数据集,假设是关于索引 的训练样本的损失函数,其中 是参数向量。然后得到目标函数
      的目标函数的梯度计算为
      如果使用梯度下降法,则每个自变量迭代的计算代价为 ,它随线性增长。因此,当训练数据集较大时,每次迭代的梯度下降计算代价将较高。
       
      随机梯度下降(SGD)可降低每次迭代时的计算代价。在随机梯度下降的每次迭代中,对数据样本随机均匀采样一个索引 ,其中 ,并计算梯度以更新