科研LabsFleiss Kappa

Fleiss Kappa 多评分者一致性

当 3 名及以上评分者对多个对象做名义分类时,评价他们之间的一致性。Cohen κ 只适用于两名评分者,多人时用 Fleiss κ。 每个对象的评分者人数需相同。浏览器本地计算,数据不上传。两名评分者或有序分级请用 Kappa(含加权)

① 输入计数表

每行一个被评对象,每列一个类别,数值=有多少名评分者把该对象归入该类别。每行之和(即评分者总数 m)须相同。例如「4 0 0」表示 4 名评分者都选了类别 1。

使用说明与方法学

什么时候用 Fleiss κ 而不是 Cohen κ?

Cohen κ 只处理「固定两名评分者」。当评分者为 3 人及以上(且不要求每个对象都由同一批人评),用 Fleiss κ。只有两名评分者、或类别有序需加权时,用 Kappa(含线性/二次加权)工具。

数据要怎么整理?

整理成「对象 × 类别」的计数表:每行一个对象,每列一个类别,单元格是把该对象归入该类别的评分者人数。每行之和等于评分者总数 m,且所有行的 m 必须相同。

κ 多大算好?

常用 Landis & Koch 参考:<0.2 轻微、0.2~0.4 一般、0.4~0.6 中等、0.6~0.8 高度、>0.8 极好。但阈值仅供参考,临床意义需结合具体场景判断。

κ 偏低一定是评分者差吗?

不一定。当某一类别占绝大多数(流行率极不均衡)时,期望一致度 Pe 很高,κ 会被压低(kappa 悖论)。此时应结合各类别比例与实际一致度 P̄ 综合解读。