资讯 更多 >>
ROC曲线,套路全解析(一)-世界独家
失落领地完整攻略_失落领地|环球微头条
当前热门:东北手工水饺
中级会计师证对公司有什么作用
世体预测巴萨战阿尔梅里亚首发:莱...
焦点关注:蝴蝶荚蒾
50天17战,安帅:没踢出最佳水准很...
浏阳市青联换届 新一届青联委员共1...
天天热头条丨嫩白
环球看热讯:洛克王国枪打出头鸟怎...
动态更多 >>
你们,温暖了2021
西安市新增27个中风险地区 目前有1...
广西新增本土确诊病例1例
哈尔滨市全域均为低风险地区
寒潮将影响我国中东部地区 四川盆...
昆明至哈尔滨一航班发现1名入境复阳...
陕西研考:封控区内考生在原报考点...
北京今日最高气温仅5℃ 明起强冷空...
那年今日 | 历史上的12月22日发生...
我要找债主
会展 更多 >>
美籍酿酒师在崇礼:中国是第二故乡...
河南项城报告2名疑似新冠肺炎病例 ...
浙江绍兴确诊病例首次零新增 上虞...
广西东兴实行全员居家隔离 启动口...
新疆全方位推进乡村振兴 “富春山...
云南瑞丽市主城区全员核酸检测结果...
内蒙古满洲里累计治愈出院本土确诊...
孙海洋夫妻驱车山东阳谷:还在为孙...
大国工匠追梦“玉米强国”40载:用...
让南海“海洋热带雨林”斑斓多彩
专题报道 
当前位置: 资讯 > >> 正文
 
ROC曲线,套路全解析(一)-世界独家
来源:哔哩哔哩     时间:2023-02-27 00:59:56

本章思维导图:

前言

ROC(receiver operating characteristic curve) 受试者工作曲线,又称为感受性曲线(sensitivity curve)是医学诊断试验、预测模型性能区分度评价的最核心指标(见表1)1。ROC曲线其实代表了无数个分类器。ROC曲线的横坐标和纵坐标其实是不相关性的,所以不能把ROC曲线当做一个函数曲线来理解,应该把ROC曲线看成无数个点,每个点都代表一个分类器,每个点对应的xy轴代表了这个分类器的性能。ROC曲线就是分类器性能随着阈值(cutoff)的变化而变化的过程。对于ROC曲线,一个重要的特征是它的曲线下面积(AUC),AUC=0.5为随机分类(蓝色random assume线条),识别能力为0,面积越接近于1识别能力越强,面积等于1为完全识别。如图所示,黑色model1曲线AUC>红色model2曲线 → 区分能力model1>model2(见图1)。可见曲线距离左上角越近,证明分类器效果越好。实际上,AUC>0.9是及其优秀,AUC 0.8-0.9 优秀,0.7-0.8 可接受,0.5-0.7 较差模型性能。要计算ROC,对于设计类型为诊断试验的研究,金标准分组Y一般来说是二分类,试验变量可以为连续型、分类、有序分类。对于设计类型为预测模型的研究,结局Y可以依赖随访时间变量time成为预后(prognosis)预测,也可以不依赖随访time成为诊断(diagnosis)预测,后者与诊断试验统计分析方法一致2。TRIPOD申明(Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis)也规范了预测模型的报告过程及质量评价(见图2)3。而依赖time的ROC更复杂4,主要依赖是survivalROC 和timeROC包进行时间依赖ROC绘制。本章节阐述非时间依赖型ROC(Logistic回归),下一章节阐述时间依赖型(Kaplan-Meier Cox回归)。


(资料图片仅供参考)

表1 预测模型模型性能评价区分度、校准度、重分类度

图1 ROC曲线是无数个cutoff点集合而成

图2 TRIPOD申明与ROC

ROC切点

ROC自动最佳切点,有多种计算方法,最主要是依据Youden指数。Youden指数依据ROC指标体系中的敏感度、特异度来获得,最佳切点算法还可以“closest.topleft”,具体产生过程和指标概念见表2、表3。其中灵敏度、特异度、准确率、阳性预测值、阴性预测值是除了AUC外最常用的5个ROC评价指标。ROC自动切点除了pROC外有OptimalCutpoints、Epi包,但是笔者测试后面2个有bug,结果有时候会不够精准与pROC及其他软件结果不一致,最好不用。当然,也可以MedCalc、SPSS模块根据ROC结果坐标表格手动计算youden指数。SAS软件可自行编程。

表2 诊断四格表两种形态

表3  ROC诊断指标体系

曲线比较

ROC曲线比较是采用AUC95%CI是否有重叠来简单判断异。诊断试验中同一对象,2种方法配对计算P 值,即Delong-method。预测模型中,训练集同一结局指标,不同预测因素也是配对Delong-method,而如果要比较训练集和验证集ROC性能差异,此时二者为独立数据集则应用Z检验、bootstrap、venkatrama法。单独ROC曲线与45°的chance line (或者 random assume line)比较有差异,只能证明此ROC有一定区分度。ROC曲线有原始曲线和平滑曲线两种,计算的AUC和图形状态均不一样。ROC 95%CI估计有参数、半参数、非参数法。常规的ROC曲线用的是非参数法,如empirical method,有些用参数法,如binormal method5。绘制ROC曲线有ROCR、Rplot、pROC等,首推pROC包6。pROC包也同时支持多分类ROC,另外python的micro-average和macro-average 也支持多分类ROC。也有文章提到校正混杂后ROC曲线,用ROCt包7,目前已经下架。笔者查看原始代码,感觉就是建模多了个混杂比较校正不校正两条曲线的差异。

论文ROC

初步检索pubmed,ROC曲线展示大致有如下几种。经典款、带error bar、带95%CI、平滑ROC。pROC包示例代码见,https://web.expasy.org/pROC/screenshots.html

图3 主流ROC曲线形态

发散思维

与ROC曲线近似的,还有PR曲线。极度偏态的数据集上,Precision-Recall(PR) Curve可表现更全面8。PR其实就是x轴TPR或recall或Sen,也叫查全率,y轴PPV或precision,也就是查准率。ROC的X轴是FPR,Y轴是TPR。FPR体现的是有多少负类被错抓成了正类,TPR体现的是有多少正类被正确的分类为正类, Precison衡量的是模型判别为正类的样本中,有多少确实就是正类。一条曲线在ROC曲线中压过另一条曲线,那么他在PR曲线中也会相同的全面优于另一条曲线(如图4)。

图4 ROC(左)与PR曲线(右)

ROC代码

图5 原始ROC曲线(左)与平滑ROC曲线(右)

表4 Empirical ROC性能指标体系

图6 基于同一数据集配对ROC与不同数据集独立ROC曲线的比较

图7 ggplot2样式ROC

图8 带灵敏度置信区间的ROC

小结

掌握pROC包参数,绘制AUC值95%CI(c-index)与模型性能评价5件套指标(sen、spe、acc、ppv、npv)。掌握多种ROC曲线形态,及曲线差异性检验。

原创不易,转载请说明来自本公众号。

参考文献

Verdonschot JAJ, Hazebroek MR, Wang P, Sanders-van Wijk S, Merken JJ, Adriaansen YA, van den Wijngaard A, Krapels IPC, Brunner-La Rocca HP, Brunner HG, Heymans SRB. Clinical Phenotype and Genotype Associations With Improvement in Left Ventricular Function in Dilated Cardiomyopathy. Circ Heart Fail 2018;11(11):e005220.doi:10.1161/CIRCHEARTFAILURE.118.005220

van Smeden M, Reitsma JB, Riley RD, Collins GS, Moons KG. Clinical prediction models: diagnosis versus prognosis. J Clin Epidemiol 2021;132:142-145.doi:10.1016/j.jclinepi.2021.01.009

Collins GS, Reitsma JB, Altman DG, Moons KG. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement. BMJ 2015;350:g7594.doi:10.1136/bmj.g7594

Kamarudin AN, Cox T, Kolamunnage-Dona R. Time-dependent ROC curve analysis in medical research: current methods and applications. BMC Med Res Methodol 2017;17(1):53.doi:10.1186/s12874-017-0332-6

Colak E, Mutlu F, Bal C, Oner S, Ozdamar K, Gok B, Cavusoglu Y. Comparison of semiparametric, parametric, and nonparametric ROC analysis for continuous diagnostic tests using a simulation study and acute coronary syndrome data. Comput Math Methods Med 2012;2012:698320.doi:10.1155/2012/698320

Robin X, Turck N, Hainard A, Tiberti N, Lisacek F, Sanchez JC, Muller M. pROC: an open-source package for R and S+ to analyze and compare ROC curves. BMC Bioinformatics 2011;12:77.doi:10.1186/1471-2105-12-77

https://rdrr.io/cran/ROCt/man/adjusted.ROCt.html.

Yan B, Guan D, Wang C, Wang J, He B, Qin J, Boheler KR, Lu A, Zhang G, Zhu H. An integrative method to decode regulatory logics in gene transcription. Nat Commun 2017;8(1):1044.doi:10.1038/s41467-017-01193-0

ROC

关键词: 预测模型 诊断试验

热门推荐
猜你喜欢