线性神经网络

avatar
作者
筋斗云
阅读量:0
在介绍深度神经网络之前,我们需要了解神经网络训练的基础知识。本章我们将介绍神经网络的整个训练过程,包括:定义简单的神经网络架构、数据处理、指定损失函数和如何训练模型。为了更容易学习,我们将从经典算法————线性神经网络开始,介绍神经网络的基础知识。经典统计学习技术中的线性回归和softmax回归可以视为线性神经网络,这些知识将为未来其他部分中更复杂的技术奠定基础。
线性回归
回归(regression)是能为一个或多个自变量与因变量之间关系建模的一类方法。在自然科学和社会科学领域,回归经常用来表示输入和输出之间的关系。在机器学习领域中的大多数任务通常都与预测(prediction)有关。当我们想预测一个数值时,就会涉及到回归问题。常见的例子包括:预测价格(房屋、股票等)、预测住院时间(针对住院病人等)、预测需求(零售销量等)。但不是所有的预测都是回归问题。在后面的章节中,我们将介绍分类问题。分类问题的目标是预测数据属于一组类别中的哪一个。

线性回归的基本元素

为了解释线性回归,我们举一个实际的例子:我们希望根据房屋的面积(平方英尺)和房龄(年)来估算房屋价格(美元)。为了开发一个能预测房价的模型,我们需要收集一个真实的数据集。这个数据集包括了房屋的销售价格、面积和房龄。在机器学习的术语中,该数据集称为训练数据集(training data set)或训练集(training set)。每行数据(比如一次房屋交易相对应的数据)称为样本(sample),也可以称为数据点(data point)或数据样本(data instance)。我们把试图预测的目标(比如预测房屋价格)称为标签(label)或目标(target)。预测所依据的自变量(面积和房龄)称为特征(feature)或协变量(covariate)。通常,我们使用n来表示数据集中的样本数。对索引为i的样本,其输入表示为x (i) = [x ( 1 i) , x ( 2 i) ] ,其对应的标签是y (i)
线性模型

在这里我们引用李沐老师的一篇文章作为讲解。

线性假设是指目标(房屋价格)可以表示为特征(面积和房龄)的加权和,如下面的式子:price=warea·area+wage·age+b.中的wareawage称为权重(weight),权重决定了每个特征对我们预测值的影响。b称为偏置(bias)偏移量(ofset)或截距(intercept)。偏置是指当所有特征都取值为0时,预测值应该为多少。即使现实中不会有任何房子的面积是0或房龄正好是0年,我们仍然需要偏置项。如果没有偏置项,我们模型的表达能力将受到限制。严格来说,(3.1.1)是输入特征的一仿射变换(afnetransformation)。仿射变换的特点是通过加权和对特征进行线性变换(lineartransformation),并通过偏置项来进行平移(translation)。 给定一个数据集,我们的标是寻找模型的权重w和偏置b,使得根据模型做出的预测大体符合数据里的真实价格。输出的预测值由输入特征通过线性模型的仿射变换决定,仿射变换由所选权重和偏置确定。而在机器学习领域,我们通常使用的是高维数据集,建模时采用线性代数表示法会比较方便。当我们的输入包含d个特征时,我们将预测结果yˆ(通常使用“尖角”符号表示y的估计值)表示为:yˆ=w1x1+...+wdxd+b.                                (3.1.2) 将所有特征放到向量x R d中,并将所有权重放到向量w R d中,我们可以用点积形式来简洁地表达模型: yˆ = w x + b.                                            (3.1.3) (3.1.3)中,向量x对应于单个数据样本的特征。用符号表示的矩阵X R n×d 可以很方便地引用我们整个数据集的n个样本。其中,X的每一行是一个样本,每一列是一种特征。 对于特征集合X,预测值ˆy R n 可以通过矩阵向量乘法表示为: ˆy = Xw + b                                                (3.1.4) 这个过程中的求和将使用广播机制(广播机制在 2.1.3中有详细介绍)。给定训练数据特征X和对应的已知 标签y,线性回归的目标是找到一组权重向量w和偏置b:当给定从X的同分布中取样的新样本特征时,这组权重向量和偏置能够使得新样本预测标签的误差尽可能小。 虽然我们相信给定x预测y的最佳模型会是线性的,但我们很难找到一个有n个样本的真实数据集,其中对于所有的1 i ny (i)完全等于wx (i) + b。无论我们使用什么手段来观察特征X和标签y,都可能会出现少量的观测误差。因此,即使确信特征与标签的潜在关系是线性的,我们也会加入一个噪声项来考虑观测误差带来的影响。在开始寻找最好的模型参数(model parameterswb之前,我们还需要两个东西:1)一种模型质量的度量方式。(2)一种能够更新模型以提高模型预测质量的方法。

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!