type
status
date
slug
summary
tags
category
icon
password
Property
数据最初从哪里来?计划最终如何处理模型的输出? 通常情况下,开发人员会拥有一些数据且急于开发模型,而不关注这些基本问题。
许多失败的机器学习部署(即实际应用)都可以追究到这种方式。 有时,根据测试集的精度衡量,模型表现得非常出色。 但是当数据分布突然改变时,模型在部署中会出现灾难性的失败。 更隐蔽的是,有时模型的部署本身就是扰乱数据分布的催化剂。 举一个有点荒谬却可能真实存在的例子。 假设我们训练了一个贷款申请人违约风险模型,用来预测谁将偿还贷款或违约。 这个模型发现申请人的鞋子与违约风险相关(穿牛津鞋申请人会偿还,穿运动鞋申请人会违约)。 此后,这个模型可能倾向于向所有穿着牛津鞋的申请人发放贷款,并拒绝所有穿着运动鞋的申请人。
这种情况可能会带来灾难性的后果。 首先,一旦模型开始根据鞋类做出决定,顾客就会理解并改变他们的行为。 不久,所有的申请者都会穿牛津鞋,而信用度却没有相应的提高。 总而言之,机器学习的许多应用中都存在类似的问题: 通过将基于模型的决策引入环境,可能会破坏模型。
分布偏移的类型
首先,我们考虑数据分布可能发生变化的各种方式,以及为挽救模型性能可能采取的措施。 在一个经典的情景中,假设训练数据是从某个分布 中采样的, 但是测试数据将包含从不同分布 中抽取的未标记样本。 一个清醒的现实是:如果没有任何关于 和之间 相互关系的假设, 学习到一个分类器是不可能的。
考虑一个二元分类问题:区分狗和猫。 如果分布可以以任意方式偏移,那么我们的情景允许病态的情况, 即输入的分布保持不变: , 但标签全部翻转: 。 换言之,如果将来所有的“猫”现在都是狗,而我们以前所说的“狗”现在是猫。 而此时输入 的分布没有任何改变, 那么我们就不可能将这种情景与分布完全没有变化的情景区分开。
幸运的是,在对未来我们的数据可能发生变化的一些限制性假设下, 有些算法可以检测这种偏移,甚至可以动态调整,提高原始分类器的精度。
协变量偏移
在不同分布偏移中,协变量偏移可能是最为广泛研究的。 这里我们假设:虽然输入的分布可能随时间而改变, 但标签函数(即条件分布)没有改变。 统计学家称之为协变量偏移(covariate shift), 因为这个问题是由于协变量(特征)分布的变化而产生的。 虽然有时我们可以在不引用因果关系的情况下对分布偏移进行推断, 但在我们认为 导致 的情况下,协变量偏移是一种自然假设。
考虑一下区分猫和狗的问题:
在测试时,我们被要求对下图中的图像进行分类。
训练集由真实照片组成,而测试集只包含卡通图片。 假设在一个与测试集的特征有着本质不同的数据集上进行训练, 如果没有方法来适应新的领域,可能会有麻烦。
标签偏移
标签偏移(label shift)描述了与协变量偏移相反的问题。 这里我们假设标签边缘概率 可以改变, 但是类别条件分布在不同的领域之间保持不变。 当我们认为导致时,标签偏移是一个合理的假设。 例如,预测患者的疾病,我们可能根据症状来判断, 即使疾病的相对流行率随着时间的推移而变化。 标签偏移在这里是恰当的假设,因为疾病会引起症状。 在另一些情况下,标签偏移和协变量偏移假设可以同时成立。 例如,当标签是确定的,即使导致,协变量偏移假设也会得到满足。 有趣的是,在这些情况下,使用基于标签偏移假设的方法通常是有利的。 这是因为这些方法倾向于包含看起来像标签(通常是低维)的对象, 而不是像输入(通常是高维的)对象。
概念偏移
我们也可能会遇到概念偏移(concept shift): 当标签的定义发生变化时,就会出现这种问题。 这听起来很奇怪——一只猫就是一只猫,不是吗? 然而,其他类别会随着不同时间的用法而发生变化。 精神疾病的诊断标准、所谓的时髦、以及工作头衔等等,都是概念偏移的日常映射。 事实证明,假如我们环游美国,根据所在的地理位置改变我们的数据来源, 我们会发现关于“软饮”名称的分布发生了相当大的概念偏移, 如图所示。
如果我们要建立一个机器翻译系统, 的分布可能会因我们的位置不同而得到不同的翻译。 这个问题可能很难被发现。 所以最好可以利用在时间或空间上逐渐发生偏移的知识。
分布偏移示例
在深入研究形式体系和算法之前,我们可以讨论一些协变量偏移或概念偏移可能并不明显的具体情况。
医学诊断
假设你想设计一个检测癌症的算法。 你从健康人和病人那里收集数据,然后训练你的算法。 它工作得很好,有很高的精度,然后你得出了你已经准备好在医疗诊断上取得成功的结论。 请先别着急。
收集训练数据的分布和在实际中遇到的数据分布可能有很大的不同。 这件事在一个不幸的初创公司身上发生过,我们中的一些作者几年前和他们合作过。 他们正在研究一种血液检测方法,主要针对一种影响老年男性的疾病, 并希望利用他们从病人身上采集的血液样本进行研究。 然而,从健康男性身上获取血样比从系统中已有的病人身上获取要困难得多。 作为补偿,这家初创公司向一所大学校园内的学生征集献血,作为开发测试的健康对照样本。 然后这家初创公司问我们是否可以帮助他们建立一个用于检测疾病的分类器。
正如我们向他们解释的那样,用近乎完美的精度来区分健康和患病人群确实很容易。 然而,这是可能因为受试者在年龄、激素水平、体力活动、 饮食、饮酒以及其他许多与疾病无关的因素上存在差异。 这对检测疾病的分类器可能并不适用。 这些抽样可能会遇到极端的协变量偏移。 此外,这种情况不太可能通过常规方法加以纠正。 简言之,他们浪费了一大笔钱。
自动驾驶汽车
对于一家想利用机器学习来开发自动驾驶汽车的公司,一个关键部件是“路沿检测器”。 由于真实的注释数据获取成本很高,他们想出了一个“聪明”的想法: 将游戏渲染引擎中的合成数据用作额外的训练数据。 这对从渲染引擎中抽取的“测试数据”非常有效,但应用在一辆真正的汽车里真是一场灾难。 正如事实证明的那样,路沿被渲染成一种非常简单的纹理。 更重要的是,所有的路沿都被渲染成了相同的纹理,路沿检测器很快就学习到了这个“特征”。
当美军第一次试图在森林中探测坦克时,也发生了类似的事情。 他们在没有坦克的情况下拍摄了森林的航拍照片,然后把坦克开进森林,拍摄了另一组照片。 使用这两组数据训练的分类器似乎工作得很好。 不幸的是,分类器仅仅学会了如何区分有阴影的树和没有阴影的树: 第一组照片是在清晨拍摄的,而第二组是在中午拍摄的。
非平稳分布
当分布变化缓慢并且模型没有得到充分更新时,就会出现更微妙的情况: 非平稳分布(nonstationary distribution)。 以下是一些典型例子:
- 训练一个计算广告模型,但却没有经常更新(例如,一个2009年训练的模型不知道一个叫iPad的不知名新设备刚刚上市)。
- 建立一个垃圾邮件过滤器,它能很好地检测到所有垃圾邮件。但是,垃圾邮件发送者们变得聪明起来,制造出新的信息,看起来不像我们以前见过的任何垃圾邮件。
- 建立一个产品推荐系统,它在整个冬天都有效,但圣诞节过后很久还会继续推荐圣诞帽。
更多轶事
- 建立一个人脸检测器,它在所有基准测试中都能很好地工作,但是它在测试数据上失败了:有问题的例子是人脸充满了整个图像的特写镜头(训练集中没有这样的数据)。
- 为美国市场建立了一个网络搜索引擎,并希望将其部署到英国。
- 通过在一个大的数据集来训练图像分类器,其中每一个大类的数量在数据集近乎是平均的,比如1000个类别,每个类别由1000个图像表示。但是将该系统部署到真实世界中,照片的实际标签分布显然是不均匀的。
分布偏移纠正
正如我们所讨论的,在许多情况下训练和测试分布是不同的。 在一些情况下,我们很幸运,不管协变量、标签或概念如何发生偏移,模型都能正常工作。 在另一些情况下,我们可以通过运用策略来应对这种偏移,从而做得更好。
经验风险与实际风险
首先我们反思一下在模型训练期间到底发生了什么? 训练数据 的特征和相关的标签经过迭代,在每一个小批量之后更新模型的参数。 为了简单起见,我们不考虑正则化,因此极大地降低了训练损失:
其中 是损失函数,用来度量: 给定标签 ,预测 的“糟糕程度”。 统计学家称这一项为经验风险。 经验风险(empirical risk)是为了近似 真实风险(true risk), 整个训练数据上的平均损失,即从其真实分布 中抽取的所有数据的总体损失的期望值:
然而在实践中,我们通常无法获得总体数据。 因此,经验风险最小化是一种实用的机器学习策略,希望能近似最小化真实风险。
协变量偏移纠正
假设对于带标签的数据 , 我们要评估 。 然而观测值 是从某些源分布 中得出的, 而不是从目标分布 中得出的。 幸运的是,依赖性假设意味着条件分布保持不变,即: 。 如果源分布是“错误的”, 我们可以通过在真实风险的计算中,使用以下简单的恒等式来进行纠正:
换句话说,我们需要根据数据来自正确分布与来自错误分布的概率之比, 来重新衡量每个数据样本的权重:
将权重 代入到每个数据样本中, 我们可以使用”加权经验风险最小化“来训练模型:
由于不知道这个比率,我们需要估计它。 有许多方法都可以用,包括一些花哨的算子理论方法, 试图直接使用最小范数或最大熵原理重新校准期望算子。 对于任意一种这样的方法,我们都需要从两个分布中抽取样本: “真实”的分布 ,通过访问测试数据获取; 训练集 ,通过人工合成的很容易获得。 请注意,我们只需要特征 , 不需要访问标签 。
在这种情况下,有一种非常有效的方法可以得到几乎与原始方法一样好的结果: logistic regression。 这是用于二元分类的softmax回归的一个特例。 综上所述,我们学习了一个分类器来区分从 抽取的数据和从 抽取的数据。 如果无法区分这两个分布,则意味着想相关的样本可能来自这两个分布中的任何一个。 另一方面,任何可以很好区分的样本都应该相应地显著增加或减少权重。
为了简单起见,假设我们分别从 和 两个分布中抽取相同数量的样本。 现在用 标签表示:从 抽取的数据为1,从抽取的数据为-1。 然后,混合数据集中的概率由下式给出
因此,如果我们使用对数几率回归方法,其中 ( 是一个参数化函数),则很自然有:
因此,我们需要解决两个问题: 第一个问题是关于区分来自两个分布的数据; 第二个问题是关于加权经验风险的最小化问题。 在这个问题中,我们将对其中的项加权。
现在,我们来看一下完整的协变量偏移纠正算法。 假设我们有一个训练集 和一个未标记的测试集 。 对于协变量偏移 ,我们假设 的来自某个源分布, 来自目标分布。 以下是纠正协变量偏移的典型算法:
- 生成一个二元分类训练集
- logistic regression训练二元分类器得到函数
- 使用 或更好的 (c为常量)对训练数据进行加权
- 使用权重 进行 的训练
请注意,上述算法依赖于一个重要的假设: 需要目标分布(例如,测试分布)中的每个数据样本在训练时出现的概率非零。 如果我们找到 但 的点, 那么相应的重要性权重会是无穷大。
标签偏移纠正
假设我们处理的是 个类别的分类任务。 和 中分别是源分布(例如训练时的分布)和目标分布(例如测试时的分布)。 假设标签的分布随时间变化: , 但类别条件分布保持不变: 。 如果源分布 是“错误的”, 我们可以根据定义的真实风险中的恒等式进行更正:
这里,重要性权重将对应于标签似然比率
标签偏移的一个好处是,如果我们在源分布上有一个相当好的模型, 那么我们可以得到对这些权重的一致估计,而不需要处理周边的其他维度。 在深度学习中,输入往往是高维对象(如图像),而标签通常是低维(如类别)。
为了估计目标标签分布,我们首先采用性能相当好的现成的分类器(通常基于训练数据进行训练), 并使用验证集(也来自训练分布)计算其混淆矩阵。 混淆矩阵 是一个 矩阵, 其中每列对应于标签类别,每行对应于模型的预测类别。 每个单元格的值 是验证集中,真实标签为 , 而我们的模型预测为 的样本数量所占的比例。
现在,我们不能直接计算目标数据上的混淆矩阵, 因为我们无法看到真实环境下的样本的标签, 除非我们再搭建一个复杂的实时标注流程。 然而,我们所能做的是将所有模型在测试时的预测取平均数, 得到平均模型输出 , 其中第 个元素 是我们模型预测测试集中的总预测分数。
结果表明,如果我们的分类器一开始就相当准确, 并且目标数据只包含我们以前见过的类别, 以及如果标签偏移假设成立(这里最强的假设), 我们就可以通过求解一个简单的线性系统来估计测试集的标签分布
因为作为一个估计, 对所有 成立, 其中 是 维标签分布向量 的第 元素。 如果我们的分类器一开始就足够精确,那么混淆矩阵 将是可逆的, 进而我们可以得到一个解 。
因为我们观测源数据上的标签,所以很容易估计分布 。 那么对于标签为 的任何训练样本 , 我们可以使用我们估计的 比率来计算权重 , 并将其代入加权经验风险最小化中。
概念偏移纠正
概念偏移很难用原则性的方式解决。 例如,在一个问题突然从“区分猫和狗”偏移为“区分白色和黑色动物”的情况下, 除了从零开始收集新标签和训练,别无妙方。 幸运的是,在实践中这种极端的偏移是罕见的。 相反,通常情况下,概念的变化总是缓慢的。 比如下面是一些例子:
- 在计算广告中,新产品推出后,旧产品变得不那么受欢迎了。这意味着广告的分布和受欢迎程度是逐渐变化的,任何点击率预测器都需要随之逐渐变化。
- 由于环境的磨损,交通摄像头的镜头会逐渐退化,影响摄像头的图像质量。
- 新闻内容逐渐变化(即新新闻的出现)。
在这种情况下,我们可以使用与训练网络相同的方法,使其适应数据的变化。 换言之,我们使用新数据更新现有的网络权重,而不是从头开始训练。
学习问题的分类法
有了如何处理分布变化的知识,我们现在可以考虑机器学习问题形式化的其他方面。
批量学习
在批量学习(batch learning)中,我们可以访问一组训练特征和标签, 我们使用这些特性和标签训练 。 然后,我们部署此模型来对来自同一分布的新数据 进行评分。 例如,我们可以根据猫和狗的大量图片训练猫检测器。 一旦我们训练了它,我们就把它作为智能猫门计算视觉系统的一部分,来控制只允许猫进入。 然后这个系统会被安装在客户家中,基本再也不会更新。
在线学习
除了“批量”地学习,我们还可以单个“在线”学习数据 。 更具体地说,我们首先观测到 , 然后我们得出一个估计值 , 只有当我们做到这一点后,我们才观测到 。 然后根据我们的决定,我们会得到奖励或损失。 许多实际问题都属于这一类。 例如,我们需要预测明天的股票价格, 这样我们就可以根据这个预测进行交易。 在一天结束时,我们会评估我们的预测是否盈利。 换句话说,在在线学习(online learning)中,我们有以下的循环。 在这个循环中,给定新的观测结果会不断地改进我们的模型。
老虎机
老虎机(bandits)是上述问题的一个特例。 虽然在大多数学习问题中,我们有一个连续参数化的函数f(例如,一个深度网络)。 但在一个老虎机问题中,我们只有有限数量的手臂可以拉动。 也就是说,我们可以采取的行动是有限的。 对于这个更简单的问题,可以获得更强的最优性理论保证,这并不令人惊讶。 我们之所以列出它,主要是因为这个问题经常被视为一个单独的学习问题的情景。
控制
在很多情况下,环境会记住我们所做的事。 不一定是以一种对抗的方式,但它会记住,而且它的反应将取决于之前发生的事情。 例如,咖啡锅炉控制器将根据之前是否加热锅炉来观测到不同的温度。 在这种情况下,PID(比例—积分—微分)控制器算法是一个流行的选择。 同样,一个用户在新闻网站上的行为将取决于之前向她展示的内容(例如,大多数新闻她只阅读一次)。 许多这样的算法形成了一个环境模型,在这个模型中,他们的行为使得他们的决策看起来不那么随机。 近年来,控制理论(如PID的变体)也被用于自动调整超参数, 以获得更好的解构和重建质量,提高生成文本的多样性和生成图像的重建质量 。
强化学习
强化学习(reinforcement learning)强调如何基于环境而行动,以取得最大化的预期利益。 国际象棋、围棋、西洋双陆棋或星际争霸都是强化学习的应用实例。 再比如,为自动驾驶汽车制造一个控制器,或者以其他方式对自动驾驶汽车的驾驶方式做出反应 (例如,试图避开某物体,试图造成事故,或者试图与其合作)。
考虑到环境
上述不同情况之间的一个关键区别是: 在静止环境中可能一直有效的相同策略, 在环境能够改变的情况下可能不会始终有效。 例如,一个交易者发现的套利机会很可能在他开始利用它时就消失了。 环境变化的速度和方式在很大程度上决定了我们可以采用的算法类型。 例如,如果我们知道事情只会缓慢地变化, 就可以迫使任何估计也只能缓慢地发生改变。 如果我们知道环境可能会瞬间发生变化,但这种变化非常罕见, 我们就可以在使用算法时考虑到这一点。 当一个数据科学家试图解决的问题会随着时间的推移而发生变化时, 这些类型的知识至关重要。