科研Labs › Fleiss Kappa
Fleiss Kappa 多评分者一致性
当 3 名及以上评分者对多个对象做名义分类时,评价他们之间的一致性。Cohen κ 只适用于两名评分者,多人时用 Fleiss κ。 每个对象的评分者人数需相同。浏览器本地计算,数据不上传。两名评分者或有序分级请用 Kappa(含加权)。
① 输入计数表
每行一个被评对象,每列一个类别,数值=有多少名评分者把该对象归入该类别。每行之和(即评分者总数 m)须相同。例如「4 0 0」表示 4 名评分者都选了类别 1。
使用说明与方法学
什么时候用 Fleiss κ 而不是 Cohen κ?
Cohen κ 只处理「固定两名评分者」。当评分者为 3 人及以上(且不要求每个对象都由同一批人评),用 Fleiss κ。只有两名评分者、或类别有序需加权时,用 Kappa(含线性/二次加权)工具。
数据要怎么整理?
整理成「对象 × 类别」的计数表:每行一个对象,每列一个类别,单元格是把该对象归入该类别的评分者人数。每行之和等于评分者总数 m,且所有行的 m 必须相同。
κ 多大算好?
常用 Landis & Koch 参考:<0.2 轻微、0.2~0.4 一般、0.4~0.6 中等、0.6~0.8 高度、>0.8 极好。但阈值仅供参考,临床意义需结合具体场景判断。
κ 偏低一定是评分者差吗?
不一定。当某一类别占绝大多数(流行率极不均衡)时,期望一致度 Pe 很高,κ 会被压低(kappa 悖论)。此时应结合各类别比例与实际一致度 P̄ 综合解读。