文本预处理技术( 三 )


特征提取和特征选择
特征提取:根据目前的一组特征集创建新的特征子集 。即将机器学习算法不能识别的原始数据转化为算法可以识别的特征的过程 。
特征选择:从所有的特征集选出一个特征子集 。即去掉无关特征,保留相关特征的过程,特征选择本质上可以认为是降维的过程,不产生新的特征
对比图:
一、特征提取方法
1、主成分分析(PCA)
2、线性判别分析法(LDA)
3、多维尺度分析法(MDS)
4、独立成分分析法( ICA )
5、核主成分分析法(如核方法KPCA,KDA)
6、基于流型学习的方法
二、特征选择方法
1、按搜索策略分类
【文本预处理技术】2、按评价准则分类