姓名:贺文琪
学号:
【嵌牛导读】在数据挖掘,模式识别,机器学习或其他领域中处理高维数据是很困难的问题。通常,在处理数据时只有一小部分特征是重要或有用的,而绝大多数特征通常是冗余的或者是噪声。可能干扰处理的噪声,这些冗余会干扰对数据的处理,因此对高维数据进行降维是非常有必要的。特征选择和特征提取是两种主要的降维方法。
【嵌牛鼻子】特征选择,特征提取
【嵌牛提问】作为降维的两种主要方法,这二者有什么区别?
【嵌牛正文】
特征选择是从原始数据中选择出可以代表数据的特征子集,特征选择则是把原始数据从高维空间转换到低维空间中,将原始特征合并成一些新的特征类型来进行表示。与特征提取相比,特征选择保留额原始数据的物理意义,在后续的数据分析中往往会更加方便。这两者达到的效果是一样的,就是试图去减少特征数据集中的属性(或者称为特征)的数目;但是两者所采用的方式方法却不同。特征提取的方法主要是通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间。特征选择的方法是从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间。
根据使用数据标签信息的成都,特征选择方法可以大致分为有监督、半监督和无监督三种。有监督特征选择利用已知的数据标签获取判别信息,然后检验每个数据类特征之间的相关性,从而确定每个特征的重要性。但是获取这样的标签信息需要很多资源,比如人工注释,而且在许多问题中类标是不可用的。半监督特征选择只需要用少量的数据标签就可以提高选择的准确性。无监督特征选择不使用标签信息,仅通过数据集的内在信息来确定每个特征的重要性。在实际应用中,数据的标签信息大多是未知的,因此无监督的特征选择尤为重要。
特征提取的主要方法:PCA,LDA,SVD等。
特征选择的方法:
1、方法其主要思想是:对每一维的特征“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序。
主要的方法有:Chi- test(卡方检验),ID3(信息增益), (相关系数)
2、方法:其主要思想是:将子集的选择看作是一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较。
主要方法有: (递归特征消除算法)
3、方法其主要思想是:在模型既定的情况下学习出对提高模型准确性最好的属性。这句话并不是很好理解,其实是讲在确定模型的过程中,挑选出那些对模型的训练有重要意义的属性。
主要方法:正则化。如岭回归就是在基本线性回归的过程中加入了正则项。