为什么模式识别?
便于面对成千上万的数据进行分类。
输入为实验测得的数据i,输出为想进行分类的种类,用0、1来表示。若不止两类,用多个0与一个1表示。如四个0001、0010、0100、1000.
模式识别评判参数一般用两个:
Plot confusion matrix
Plot ROC(receive operating characteristics)
以Training confusion matrix为例。
M(1,1),对应内含[1000,17.1%]数字。表示,有1000个输出为1类中,被正确反应了是1类。
M(1,2),表示:在253个输出为1类中,却实际上是属于第2类。
M(1,3),对应内含[79.8%,20.2%]。表示,在输出的1中,有79.8%被正确反应了。
M(3,1),对应内含[69.5%,30.5%]。表示,实际中属于第1类的个数中,有69.5%的个体被正确认别。
M(3,2),表示,实际中属于第2类的个数中,有94.3%的个体被正确认别。
M(3,3),表示,总体上看,有88.2%的分类个体被训练的模型正确认别或分类。
其中M(3,1)=M(1,1)/[M(1,1)+M(2,1)] 表示Sensitivity(灵敏性),
其中M(3,2)=M(1,2)/[M(1,1)+M(2,2)] 表示Specificity(专一性),
即覆盖率(根据自己需求选择M(3,1),M(3,2))
其中M(1,3)=M(1,1)/[M(1,1)+M(1,2)] 表示positive predictive value ,
其中M(2,3)=M(2,1)/[M(2,1)+M(2,2)] 表示Negative predictive value,
即命中率(根据自己需求选择M(1,3),M(2,3))
可以看这篇博文帮助理解:http://blog.csdn.net/u010159842/article/details/53083382
几组相对应的概念:
1. sensitivity vs. specificity
2. recall vs. precision
3. accuracy vs. error rate
4. type I error vs. type II error
5. 针对precision和recall有F1指标,用于实现两者之间的tradeoff。
另一个判断标准为ROC
横轴为错误决定,纵轴为正确决定。越靠近左上方(0,1)越好
顺便补充一下模式识别和模式分类的区别:
模式识别:想象下公园的草地上一个女孩和两只狗玩。,输出那个位置,什么物种。
模式分类:输入一张照片,输出是不是人,是不是狗。