4. 特征选择

  1. 通常在得到实际对象的若干具体特征之后,再由这些原始特征产生出对分类识别最有效、数目最少的特征,这就是特征提取与选择的任务
    1. 目的是使在最小维数特征空间中异类模式点相距较远(类间距离较大),而同类模式点相距较近(类内距离较小)
  2. 特征选择与提取的任务:
    1. 选出最有代表性的特征,实现特征空间维数的压缩,用最少的特征达到所要求的分类识别正确率。
    2. 存在困难
      1. 获得的特征测量值不多。实现方法及经济上的限制等提供的分类信息是否足够,是否能获得较好的分类效果
      2. 获得的测量值太多。特征维数灾难
  3. 如何去掉冗余特征,如何保证分类识别精度的前提下,减少特征维数,提高分类器运算效率和准确度
  4. 特征选择与提取的两个基本途径
    1. 直接选择法
      1. 统计检验法、分支定界法、遗传算法
    2. 变换法
      1. 基于可分性判据的特征选择、基于误判概率的特征选择、离散K-L变换法(DKLT)、基于决策界的特征选择
      2. 基于类的概率密度函数的可分性判据
      3. 基于熵的可分性判据
  5. 预处理
    1. 数据归一化
    2. 剔除离群值(outlier)
    3. 缺失数据处理
  6. 最优搜索法
    1. 分支定界法

4. 特征选择
http://binbo-zappy.github.io/2024/12/07/PR-ML/4-特征选择/
作者
Binbo
发布于
2024年12月7日
许可协议