4. 特征选择
- 通常在得到实际对象的若干具体特征之后,再由这些原始特征产生出对分类识别最有效、数目最少的特征,这就是特征提取与选择的任务
- 目的是使在最小维数特征空间中异类模式点相距较远(类间距离较大),而同类模式点相距较近(类内距离较小)
- 特征选择与提取的任务:
- 选出最有代表性的特征,实现特征空间维数的压缩,用最少的特征达到所要求的分类识别正确率。
- 存在困难
- 获得的特征测量值不多。实现方法及经济上的限制等提供的分类信息是否足够,是否能获得较好的分类效果
- 获得的测量值太多。特征维数灾难
- 如何去掉冗余特征,如何保证分类识别精度的前提下,减少特征维数,提高分类器运算效率和准确度
- 特征选择与提取的两个基本途径
- 直接选择法
- 统计检验法、分支定界法、遗传算法
- 变换法
- 基于可分性判据的特征选择、基于误判概率的特征选择、离散K-L变换法(DKLT)、基于决策界的特征选择
- 基于类的概率密度函数的可分性判据
- 基于熵的可分性判据
- 直接选择法
- 预处理
- 数据归一化
- 剔除离群值(outlier)
- 缺失数据处理
- 最优搜索法
- 分支定界法
4. 特征选择
http://binbo-zappy.github.io/2024/12/07/PR-ML/4-特征选择/