多分类学习( 二 )


相关简介
例如在图 3.5(a) 中,若基于欧式距离,预测结果将是 C3 。
为什么称为"纠错输出码"呢?
这是因为在测试阶段,ECOC编码对分类器的错误有一定的容忍和修正能力 。例如图3.5(a) 中对测试示例的正确预测编码是(-1,+1,+1,-1,+1),假设在预测时某个分类器出错了,例如 f2 出错从而导致了错误编码(-1,-1,+1,-1,+1),但基于这个编码仍能产生正确的最终分类结果C3 。一般来说,对同一个学习任务,ECOC编码越长,纠错能力越强 。
EOCO编码长度越长,纠错能力越强,那长度越长越好吗?
NO!编码越长,意味着所需训练的分类器越多,计算、存储开销都会增大;另一方面,对有限类别数,可能的组合数目是有限的,码长超过一定范围后就失去了意义 。
对同等长度的编码,理论上来说,任意两个类别之间的编码距离越远,则纠错能力越强 。因此,在码长较小时可根据这个原则计算出理论最优编码 。然而,码长稍大一些就难以有效地确定最优编码,事实上这是 NP 难问题 。不过,通常我们并不需获得理论最优编码,因为非最优编码在实践中往往己能产生足够好的分类器 。另一方面,并不是编码的理论性质越好,分类性能就越好,因为机器学习问题涉及很多因素,例如将多个类拆解为两个“类别子集”,不同拆解方式所形成的两个类别子集的区分难度往往不同,即其导致的二分类问题的难度不同 。于是一个理论纠错性质很好、但导致的二分类问题较难的编码,与另一个理论纠错性质差一些、但导致的二分类问题较简单的编码,最终产生的模型性能孰强孰弱很难说 。