科研Labs › 预测模型样本量(Riley)
临床预测模型最小样本量(二分类)
⚗️ 前沿方法:基于 Riley 等(2019)的预测模型样本量准则,较新、参数敏感。本工具实现二分类结局三准则,正式投稿前建议用官方 R 包
pmsampsize 复核,并确认 R²cs 的取值来源。开发临床预测模型(诊断/预后风险模型)需要足够样本以控制过拟合。本工具按 Riley 三准则给出二分类结局所需最小样本量: ①整体收缩 S=0.9;②表观与调整 Nagelkerke R² 之差≤0.05;③总体平均风险估计精度±0.05,取三者最大。浏览器本地计算,数据不上传。
① 输入参数
| 候选预测参数个数 P 含哑变量、样条、交互等全部待估系数 | |
| 结局患病率 / 发生率 | |
| 预期 Cox-Snell R²(已调整) 来自既往模型/试点;仅有 C 统计量时需先换算 |
使用说明与方法学
为什么不再用「每变量 10 事件(EPV=10)」?
EPV=10 是经验法则,未考虑预期模型表现、预测因子数与结局比例的交互。Riley 2019 提出基于收缩、optimism 与风险估计精度的样本量准则,更有依据,已被 TRIPOD 等推荐,常被审稿要求。
R²cs 从哪里来?
理想来自既往同类预测模型报告的 Cox-Snell R²,或试点数据拟合。只有预期 C 统计量(AUC)时,需用 Riley(2020)/pmsampsize 内置方法换算为 R²cs——该换算为近似,建议直接用 pmsampsize 完成。
P 应该数哪些?
P 是模型里全部待估的预测参数个数:连续变量计 1(用样条则按样条项数计)、k 水平的分类变量计 k−1 个哑变量、交互项各计 1。不要只数「变量个数」。
为什么三个准则取最大?
三准则分别保证小的过拟合收缩、表观与调整表现接近、以及总体风险估计够准。任一不满足都不够,故取三者所需样本量的最大值作为最小样本量。