科研Labs预测模型样本量(Riley)

临床预测模型最小样本量(二分类)

⚗️ 前沿方法:基于 Riley 等(2019)的预测模型样本量准则,较新、参数敏感。本工具实现二分类结局三准则,正式投稿前建议用官方 R 包 pmsampsize 复核,并确认 R²cs 的取值来源。

开发临床预测模型(诊断/预后风险模型)需要足够样本以控制过拟合。本工具按 Riley 三准则给出二分类结局所需最小样本量: ①整体收缩 S=0.9;②表观与调整 Nagelkerke R² 之差≤0.05;③总体平均风险估计精度±0.05,取三者最大。浏览器本地计算,数据不上传。

① 输入参数

候选预测参数个数 P
含哑变量、样条、交互等全部待估系数
结局患病率 / 发生率
预期 Cox-Snell R²(已调整)
来自既往模型/试点;仅有 C 统计量时需先换算

使用说明与方法学

为什么不再用「每变量 10 事件(EPV=10)」?

EPV=10 是经验法则,未考虑预期模型表现、预测因子数与结局比例的交互。Riley 2019 提出基于收缩、optimism 与风险估计精度的样本量准则,更有依据,已被 TRIPOD 等推荐,常被审稿要求。

R²cs 从哪里来?

理想来自既往同类预测模型报告的 Cox-Snell R²,或试点数据拟合。只有预期 C 统计量(AUC)时,需用 Riley(2020)/pmsampsize 内置方法换算为 R²cs——该换算为近似,建议直接用 pmsampsize 完成。

P 应该数哪些?

P 是模型里全部待估的预测参数个数:连续变量计 1(用样条则按样条项数计)、k 水平的分类变量计 k−1 个哑变量、交互项各计 1。不要只数「变量个数」。

为什么三个准则取最大?

三准则分别保证小的过拟合收缩、表观与调整表现接近、以及总体风险估计够准。任一不满足都不够,故取三者所需样本量的最大值作为最小样本量。