特征选择可以追溯到19世纪70年代的统计模型选择,向研究方向转换是由于出现了“大特征,小数据样本”的现象。
特征选择方法经过40年的发展,但是仍不能满足数据需求分析,原因有二:一是由于理论体系不够完善,缺乏坚实的数学基础和统一的理论框架;二是学科多元化,跨学科的问题。
定义: 特征选择是一个从原始特征集合中选择’个最优了集的过程,在该过程中,对一个给定特征子集的优良性通过一个特定的评价标准(evaluation criterion)进行衡量.通过特征选择,原始特征集合中的冗余(redundant)特征和不相关(irrelevant)特征被除去。而有用特征得以保留。
典型特征选择算法有四个模块:
①构造特征子集(等价于在原始特征空间进行查找);
②采用适当的评价标准对所构造的子集进行评价;
③确定停止查找的条件;
④对得到的最优(或次优)子集进行统计评估,以确认被删除的特征所造成的信息损失在允许的范围内。流程图如下:
其中,对特征子集的优良性评价标准是决定特征选择算法的核心组成部分。eg,ACI方法实际采用ACI信息量准则作为模型评价标准。
特征选择方法中的关键问题:
1. 高维特征选择方法的四个指标。(介绍的仅是统计分类和回归问题这两种常见的数据分析任务所得出的一般指标)
1)预测的准确性。理想的特征选择算法所筛选出的特征集合,当用于从数据出发对同标函数做出预测
时,其准确性应接近或优于用全部或部分原始特征进行训练得到的模型.
2) 模型应当是可以被解释的。即通过特征选择能够准确而且无遗漏地将原始特征空问中包含有用信息
的特征筛选出来,帮助用户准确理解和解释数据.
3) 模型具有稳定性。当训练数据受到少量噪音扰动时,特征选择算法应能容忍或者消除噪音影响,所筛选出的特征子集,或者相应的参数系数以及对II标函数的预测结果均应发生大的变化.更理想的目标是当样本数无限增加时,模型一致收敛到真实模型。
4) 在模型选择过程中和随后将选择出的特征用于机器学习时,应保证统计假设检验无偏。——注:事实上这是一个传统统计学面临的难题,例如在传统的回归分析中经常使用的t.检验和F.检验均是建立在假设模型参数个数已知的前提条件下的,如何在变化的参数模型中进行假设检验,目前尚未有适合的统计理论,这也是学术界目前努力的方向之一。
2. 降维与特征选择
统计机器学习中,降维可以分为两类:特征选择与特征提取。
最终目的:过降低原始特征空间的维度以减少对学习器的输入。
特征选择:从原始特征集合中选择部分子集来实现降维,未被选中的被丢弃。
分类:按照子集评价标准和方法的不同,可以进一步ufenwei:过滤法(Filter),封装法(Wrapper),混用法(Hybrid)和嵌入法(Embeded)。
优点:对于多数涉及数据拟合或统计分类的机器学习算法,在去除了不相关特征和冗余特征的特征子集上,通常能够获得比在原始特征集合上更好的拟合优度或分类精度。省存储空间,提高算法执行效率,方便研究者理解和解释试验结果,提高拟合精度等方面。
特征提取:通过线性映射的方法,将高维空间的原始特征集合映射到低维空间来实现降维。通过线性映射得到的低维特征向量是全部原始特征的线性组合。
本质:对于原始子集的重新构造。
eg:(线性映射)PCA、LDA线性判别分析、因素分析、处理高位小样本数据的奇异值分解方法:SVD、小波变换和核卷积。
(非线性映射)Kernel PCA、引入代价函数如Hessioan LLE。
优点:意想不到嗷!
3.特征子集的优良性评估
监督学习的拟合或分类问题:距离测度(Distance Measure)或错误率指标(Error Rate)
无监督学习机的聚类问题:相依性指标(Dependency Criteria)
规则化的特征选择方法
引入原因:
1. 传统特征选择算法已经不满足高维稀疏模型的建模要求。
2. 传统方法稳定性不够
规则化:研究手段,引入额外的有用信息(约束条件)来解决病态问题,或者在数据拟合中用规则话来抑制过度拟合的现象。
通常选择刻画模型的复杂参数(函数)作为约束条件,如回归系数的范数。
原理:
1. Occam剃刀原理:两个差不多的理论能得出同样的结论,简单的那个更好。
2. James-Stein估计理论:在极大似然因子上引入了收缩因子。该理论直接导致了惩罚的似然估计的出现,所以规则化也叫做基于惩罚的方法(Penalization-based Method)。
(补充:收缩因子:回归分析中,该因子的引入会导致相应参数变量的回归系数值向原点收缩,因此被称为收缩因子)
规则化方法引入的约束条件相当于为模型参数制定了先验分布。模型越复杂,先验概率值越低,由此实现了简单模型优先的目标。
规则化的特征选择方法:
岭回归(Ridge Regression):最小二乘回归(Ordinary Least Squares)中的残差平方和(优化目标函数)引入回归系数的L2-Penalty因子来克服OLS中常见的由相关变量引发的回归系数过大的问题(偏差大、预测结果不稳定)。
缺点:它仅仅对特征集合的参数估计施加缩水影响,而不能明确地指出哪些参数为零,即无法排除那些对于分类或预测目标是冗余的或不相关的特征。于高维特征空问I.uJ题,当大多数特征高度相关,样奉数据的倍噪比很低时,岭回归并不适用于进行稀疏特征建模。
所以有了
套索(LASSO):是对OLS估计得到的同归系数实施向零值方向的收缩。是L1-peanalty特征选择算法的代表之一。
(不懂,懂了再说吧!)
参考文献:
刘峤, 秦志光, 罗旭成,等. 统计机器学习中的特征选择方法综述[C]// 2009中国计算机大会. 2009.
哇 好棒