第1章统计学习⽅法概论
1.统计学习
统计学习是关于计算机基于数据构建概率统计模型并运⽤模型对数据进⾏预测与分析的⼀门学科。 也可以说统计学习就是计算机系统通过运⽤数据及统计⽅提⾼系统性能的机器学习。故统计学习也称为统计机器学习。
统计学习的⽬的在于从假设空间中选取最优模型。
统计学习的对象是数据,数据分为由连续变量和离散变量表⽰的类型,其中同类数据是指具有某种共同性质的数据。在统计学习的过程中,以变量或者是变量组表⽰数据。 统计学习的⽅法是基于数据构建统计模型从⽽对数据进⾏预测与分析。
统计学习⽅法包括模型的假设空间、模型选择的准则以及模型学习的算法。统计学习⽅法的三要素:模型、策略、算法
肌肉松弛剂统计学习由监督学习(supervised learning)、⾮监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成。
2.监督学习
监督学习的任务是学习⼀个模型,使模型能够对任意给定的输⼊,对其相应的输出做出⼀个好的预测。
输⼊空间、输出空间:输⼊与输出所有可能取值的集合分别称为输⼊空间与输出空间
回家的滋味输⼊与输出空间可以是有限元素的集合,也可以是整个欧⽒空间。(欧⽒空间也称为欧⼏⾥得空间,可以理解为⼏何空间的度量在线性空间推⼴的结果,直⽩地说,欧⽒空间是⼀个有内积的线性空间,引⼊内积的⽬的是为了能够计算两点间的距离和夹⾓)
每个具体的输⼊是⼀个实例,通常由特征向量表⽰。特征向量存在的空间称为特征空间。
训练集的表⽰:
测试数据由相应的输⼊与输出对组成,输⼊与输出对⼜称为样本或样本点。
回归问题:输⼊变量与输出变量均为连续变量的预测问题
分类问题:输出变量为有限个离散变量的预测问题
标注问题:输⼊变量与输出变量均为变量序列的预测问题
联合概率分布中,P(X,Y)表⽰分布函数或分布密度函数。
监督学习的⽬的在于学习⼀个由输⼊到输出的映射,映射由模型来表⽰,监督学习的模型可以是概率模型或⾮概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X)表⽰
⾮概率模型:由决策函数表⽰的模型
概率模型:由条件概率表⽰的模型
监督学习分为学习和预测两个过程,监督学习之所以称为监督学习是因为监督学习利⽤训练数据集学习⼀个模型,再⽤模型对测试样本集进⾏预测,在这个过程中需要训练数据集,⽽训练数据集⼤多数时候⼜是⼈⼯给出的。
3.统计学习三要素
上⾯说到统计学习⽅法都是由模型、策略和算法构成的,所以三要素可以简单的表⽰为以下形式:
⽅法=模型+策略+算法
损失函数:损失函数度量模型⼀次预测的好坏
风险函数:风险函数度量平均意义下模型预测的好坏
损失函数可以有以下⼏种:
四季养生论文①0-1损失函数
②平⽅损失函数
③绝对损失函数
④对数损失函数
损失函数的期望
损失函数值越⼩,模型就越好,学习的⽬标就是选择期望风险最⼩的模型。
监督学习的两个基本策略:经验风险最⼩化和结构风险最⼩化
经验风险或经验损失:模型f(X)关于训练数据集的平均损失
经验风险最⼩的模型是最优的模型,当样本容量⾜够⼤时,经验风险最⼩化能保证有很好的学习效果;当样本容量很⼩时,会产⽣“过拟合”现象。
结构风险最⼩化是为了防⽌过拟合⽽提出来的策略。
4.模型评估与模型选择
当损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差成为学习⽅法评估的标准。
测试误差反映了学习⽅法对未知的测试数据集的预测能⼒。测试误差越⼩的⽅法具有更好的预测能⼒。我们将学习⽅法对未知数据的预测能⼒称之为泛化能⼒。
模型选择时,如果在假设空间中存在“真”模型,那么所选择的模型应该逼近真模型。
过拟合:如果⼀味的追求提⾼对训练数据的预测能⼒,所选的模型的复杂度则往往会⽐真模型更⾼,这种现象称之为过拟合。
过拟合具体的说是指学习时选择的模型所包含的参数过多,以致于出现这⼀模型对已知数据预测得很好,但是对于未知数据预测得很差的现象。
模型选择时,不仅要考虑对已知数据的预测能⼒,⽽且还要考虑对未知数据的预测能⼒。
两种常⽤的模型选择⽅法发:正则化与交叉验证
进⾏模型选择时的⼀种简单⽅法是,随机地将数据集切分为三部分:训练集、验证集、测试集。
5.正则化与交叉验证
正则化:结构风险最⼩化策略的实现,是在经验风险上加⼀个正则化项或者罚项。
正则化项⼀般是模型复杂度的单调递增函数,模型越复杂,正则化值就越⼤。
交叉验证:重复地使⽤数据,把给定的数据进⾏切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进⾏训练、测试以及模型选择。
交叉验证可以细分为:简单交叉验证、S折交叉验证、留⼀交叉验证
6.泛化能⼒
泛化能⼒是指:由该⽅法学习到的模型对未知数据的预测能⼒。
泛化误差:⽤⼀个模型对未知数据预测的误差。
泛化误差反映了学习⽅法的泛化能⼒。
四川电信赵麦庆
泛化误差上界:泛化能⼒分析往往是通过研究泛化误差的概率上界进⾏的。当样本容量增加时,泛化上界趋于0。
训练误差⼩的模型,泛化误差也会⼩。
7.⽣成模型与判别模型
监督学习⽅法⼜可以分为⽣成⽅法和判别⽅法。
⽣成⽅法:由数据学习联合概率分布P(X,Y),然后求出条件概率分布作为预测的模型。
判别⽅法:由数据直接学习决策函数或者条件概率分布作为预测的模型
8.分类问题
分类问题:在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题
分类器:监督学习从数据中学习⼀个分类模型或分类决策函数望甜
分类:分类器对新的输⼊进⾏输出的预测
分类问题包括学习和分类两个过程。
评价分类器性能的指标⼀般是分类准确率,对于⼆类分类问题常⽤的评价指标是精确率与召回率
9.标注问题
标注问题的⽬标⼦啊与学习⼀个模型,使它能够对观测序列给出标记序列作为预测。
标注问题分为学习和标注两个过程
评价标注模型的指标有标注准确率、精确率、召回率
10.回归问题
回归⽤于预测输⼊变量与输出变量之间的关系。
回归模型是表⽰从输⼊变量到输出变量之间映射的函数。
回归问题可以分为学习和预测两个过程。按照输⼊变量的个数,分为⼀元回归和多元回归;按照输⼊变量和输出变量之间关系的类型即模型的类型,分为线性回归和⾮线性回归。
本章概要
>海尔小王子