Categories
不学无术

机器学习文章集锦

偏最小二乘法回归(Partial Least Squares Regression) JerryLead 2011-08-21 21:32 阅读:14396 评论:2
典型关联分析(Canonical Correlation Analysis) JerryLead 2011-06-20 20:17 阅读:14508 评论:13
增强学习(Reinforcement Learning and Control) JerryLead 2011-05-13 11:19 阅读:12228 评论:5
因子分析(Factor Analysis) JerryLead 2011-05-11 15:59 阅读:15384 评论:15
线性判别分析(Linear Discriminant Analysis)(二) JerryLead 2011-04-21 23:31 阅读:10580 评论:1
线性判别分析(Linear Discriminant Analysis)(一) JerryLead 2011-04-21 23:26 阅读:13518 评论:8
ICA扩展描述 JerryLead 2011-04-19 16:35 阅读:5327 评论:0
独立成分分析(Independent Component Analysis) JerryLead 2011-04-19 16:11 阅读:14087 评论:5
主成分分析(Principal components analysis)-最大方差解释 JerryLead 2011-04-18 21:11 阅读:31676 评论:15
在线学习(Online Learning) JerryLead 2011-04-18 20:20 阅读:7410 评论:3
(EM算法)The EM Algorithm JerryLead 2011-04-06 16:18 阅读:77452 评论:41
混合高斯模型(Mixtures of Gaussians)和EM算法 JerryLead 2011-04-06 16:07 阅读:19594 评论:14
K-means聚类算法 JerryLead 2011-04-06 15:57 阅读:54823 评论:9
规则化和模型选择(Regularization and model selection) JerryLead 2011-03-27 11:51 阅读:8520 评论:1
支持向量机(五)SMO算法 JerryLead 2011-03-18 20:45 阅读:30592 评论:33
支持向量机(四) JerryLead 2011-03-18 20:37 阅读:13900 评论:6
支持向量机(三)核函数 JerryLead 2011-03-18 20:22 阅读:36999 评论:15
支持向量机SVM(二) JerryLead 2011-03-13 12:36 阅读:25688 评论:16
支持向量机SVM(一) JerryLead 2011-03-13 11:32 阅读:57184 评论:18
Categories
不学无术

召回率 Recall、精确度Precision、准确率Accuracy、虚警、漏警等分类判定指标

转载自:http://hi.baidu.com/lwhptl/item/c2da5a3c098e4ac6382ffa5f

假设原始样本中有两类,其中:
1:总共有 P个类别为1的样本,假设类别1为正例。
2:总共有N个类别为0 的样本,假设类别0为负例。
经过分类后:
3:有 TP个类别为1 的样本被系统正确判定为类别1,FN 个类别为1 的样本被系统误判定为类别 0,显然有P=TP+FN;
4:有 FP 个类别为0 的样本被系统误判断定为类别1,TN 个类别为0 的样本被系统正确判为类别 0,显然有N=FP+TN;
那么:
精确度(Precision):
P = TP/(TP+FP) ;  反映了被分类器判定的正例中真正的正例样本的比重(
准确率(Accuracy)
A = (TP + TN)/(P+N) = (TP + TN)/(TP + FN + FP + TN);    反映了分类器统对整个样本的判定能力——能将正的判定为正,负的判定为负
召回率(Recall),也称为 True Positive Rate:
R = TP/(TP+FN) = 1 – FN/T;  反映了被正确判定的正例占总的正例的比重
转移性(Specificity,不知道这个翻译对不对,这个指标用的也不多),也称为 True NegativeRate
S = TN/(TN + FP) = 1 – FP/N;   明显的这个和召回率是对应的指标,只是用它在衡量类别0 的判定能力。
F-measure or balanced F-score
F = 2 *  召回率 *  准确率/ (召回率+准确率);这就是传统上通常说的F1 measure,另外还有一些别的F measure,可以参考下面的链接
上面这些介绍可以参考:
http://en.wikipedia.org/wiki/Precision_and_recall
同时,也可以看看:http://en.wikipedia.org/wiki/Accuracy_and_precision
为什么会有这么多指标呢?
        这是因为模式分类和机器学习的需要。判断一个分类器对所用样本的分类能力或者在不同的应用场合时,需要有不同的指标。 当总共有个100 个样本(P+N=100)时,假如只有一个正例(P=1),那么只考虑精确度的话,不需要进行任何模型的训练,直接将所有测试样本判为正例,那么 A 能达到 99%,非常高了,但这并没有反映出模型真正的能力。另外在统计信号分析中,对不同类的判断结果的错误的惩罚是不一样的。举例而言,雷达收到100个来袭导弹的信号,其中只有 3个是真正的导弹信号,其余 97 个是敌方模拟的导弹信号。假如系统判断 98 个(97 个模拟信号加一个真正的导弹信号)信号都是模拟信号,那么Accuracy=98%,很高了,剩下两个是导弹信号,被截掉,这时Recall=2/3=66.67%,Precision=2/2=100%,Precision也很高。但剩下的那颗导弹就会造成灾害。
因此在统计信号分析中,有另外两个指标来衡量分类器错误判断的后果:
漏警概率(Missing Alarm)
MA = FN/(TP + FN) = 1 – TP/T = 1 – R;  反映有多少个正例被漏判了(我们这里就是真正的导弹信号被判断为模拟信号,可见MA此时为 33.33%,太高了)

虚警概率(False Alarm)
FA = FP / (TP + FP) = 1 – P;反映被判为正例样本中,有多少个是负例。

统计信号分析中,希望上述的两个错误概率尽量小。而对分类器的总的惩罚旧是上面两种错误分别加上惩罚因子的和:COST = Cma *MA + Cfa * FA。不同的场合、需要下,对不同的错误的惩罚也不一样的。像这里,我们自然希望对漏警的惩罚大,因此它的惩罚因子 Cma 要大些。

       个人观点:虽然上述指标之间可以互相转换,但在模式分类中,一般用 P、R、A 三个指标,不用MA和 FA。而且统计信号分析中,也很少看到用 R 的。如果有错误的地方,欢迎指出并改正

Categories
不学无术

支持向量机 Support Vector Machine

网上翻了好几篇,发现这个博客里的支持向量机的东西介绍的比较全,里面的公式看着也比较顺眼哈哈~
来自http://blog.pluskid.org/

支持向量机系列