科研Labs › Fleiss Kappa

Fleiss Kappa 多评分者一致性

当 3 名及以上评分者对多个对象做名义分类时，评价他们之间的一致性。Cohen κ 只适用于两名评分者，多人时用 Fleiss κ。每个对象的评分者人数需相同。浏览器本地计算，数据不上传。两名评分者或有序分级请用 Kappa（含加权）。

① 输入计数表

每行一个被评对象，每列一个类别，数值=有多少名评分者把该对象归入该类别。每行之和（即评分者总数 m）须相同。例如「4 0 0」表示 4 名评分者都选了类别 1。

Cohen κ 只处理「固定两名评分者」。当评分者为 3 人及以上（且不要求每个对象都由同一批人评），用 Fleiss κ。只有两名评分者、或类别有序需加权时，用 Kappa（含线性/二次加权）工具。

整理成「对象 × 类别」的计数表：每行一个对象，每列一个类别，单元格是把该对象归入该类别的评分者人数。每行之和等于评分者总数 m，且所有行的 m 必须相同。

常用 Landis & Koch 参考：<0.2 轻微、0.2~0.4 一般、0.4~0.6 中等、0.6~0.8 高度、>0.8 极好。但阈值仅供参考，临床意义需结合具体场景判断。

不一定。当某一类别占绝大多数（流行率极不均衡）时，期望一致度 Pe 很高，κ 会被压低（kappa 悖论）。此时应结合各类别比例与实际一致度 P̄ 综合解读。