4. 特征选择

通常在得到实际对象的若干具体特征之后，再由这些原始特征产生出对分类识别最有效、数目最少的特征，这就是特征提取与选择的任务
1. 目的是使在最小维数特征空间中异类模式点相距较远（类间距离较大），而同类模式点相距较近（类内距离较小）
特征选择与提取的任务：
1. 选出最有代表性的特征，实现特征空间维数的压缩，用最少的特征达到所要求的分类识别正确率。
2. 存在困难
  1. 获得的特征测量值不多。实现方法及经济上的限制等提供的分类信息是否足够，是否能获得较好的分类效果
  2. 获得的测量值太多。特征维数灾难
如何去掉冗余特征,如何保证分类识别精度的前提下，减少特征维数，提高分类器运算效率和准确度
特征选择与提取的两个基本途径
1. 直接选择法
  1. 统计检验法、分支定界法、遗传算法
2. 变换法
  1. 基于可分性判据的特征选择、基于误判概率的特征选择、离散K-L变换法(DKLT)、基于决策界的特征选择
  2. 基于类的概率密度函数的可分性判据
  3. 基于熵的可分性判据
预处理
1. 数据归一化
2. 剔除离群值(outlier)
3. 缺失数据处理
最优搜索法
1. 分支定界法

AI > ML > PR & ML

#ML

4. 特征选择

http://binbo-zappy.github.io/2024/12/07/PR-ML/4-特征选择/

作者

Binbo

发布于

2024年12月7日

许可协议