{SiteName}
医学概念
医学核心
医学条件
医学类别
医学创始
国内机构

医瑞贝生物医学临床研究十大统计错误上

文:Aotine

校对:Unty

医学学术期刊通常涉及人的研究,有着专业性、严谨性、时效性及实用性等特点。随着循证医学的发展,要求临床医生不仅要积累临床经验,还需及时跟进医学前沿发展,能检索相关国内外文献借鉴其中有用的信息落实于临床实践中。

因此,医学期刊文献的质量对于医学研究发展及医疗水平的推动有重要的影响。

判断一份医学稿件的好坏,主要从专业角度及统计学分析两方面评价,研究者在撰写文章中通常结合自己专业知识和临床经验保证了文章的专业水平,但常常忽略用适当的统计学方法处理临床数据的重要性,甚至导致拒稿的发生。因此,笔者于此列举十种常见的医学统计错误,欢迎共同探讨。

NO.1P值的结论描述错误

案例:某项临床药物试验中,对两组患者治疗后血清中ALT、AST两种指标平均值进行比较,得出P值分别为0.04及0.02,对于血清中AST水平,研究者得出结论:“两组患者治疗后血清指标AST平均值具有显著差异”或“两组患者治疗后血清指标AST平均值的差异更大”。

解析:这里发生的错误是,研究者很可能误解了P值的含义。P值是用于假设检验中,反映原假设H0成立的概率,如本例中HO假设为:两组患者治疗后血清指标AST平均值相同。

对于P值的理解需要用反证法的思路,即当P值足够小时,两组均值相同的原假设即归为小概率事件(小概率事件假如发生,称为犯了I类错误,即假阳性错误,错误的拒绝了HO假设,通常控制这部分错误、即接受小概率事件发生概率在5%之内),从而拒绝原假设采用备用假设,也就是研究者可能更希望看到的假设:两组均值存在差异。

因此求得的P值并不能直接判断两组患者AST均值差异的大小,结论只有“两组患者治疗后血清指标AST平均值差异具有统计学意义”,即统计学角度认可了存在差异,虽然“有显著差异”也可理解为“差异有显著意义”,常常混用,但如果理解成差异程度大就存在错误。

NO.2t检验的使用不当

案例:某关于类风湿关节炎(RA)回顾性研究中,对三组患者血清中免疫球蛋白水平测定并比较,研究者得出结论RA活动组(组1)IgG水平显著高于RA稳定组(组2),差异有统计学意义(P<0.05)。

解析:这里存在的问题是,研究者不清楚多组均值比较时不应再用t检验,而是方差分析,即使进行两组间两两比较,方法也不能用t检验,而可选采用Bonferroni法(适用于比较次数10次以下,即5组以下),且比较的α值应用校正α值,即α/3=0.,以P<0.称为具有统计学意义。

这里强调的是t检验有着严格的使用条件,t检验作为参数检验方法,包含单样本t检验(样本与给定的检验值比较)、两组独立样本t检验,两组配对样本t检验,且需满足正态分布、方差齐性等等,而三组以上样本检验时,t检验不再适用。

究其原因,回顾上文中提到的可接受I类错误即假阳性错误发生的概率临界值α(通常=0.05),结合本例如果采用t检验时,由于其H0假设为两组的均值相等,在本例中实际需要三次H0假设包括“假设组1与组2均值相等”、“假设组2与组3均值相等”、“假设组1与组3均值相等”,由于我们需要看的是至少有一个H0假设不成立的概率,因此累积的I类错误发生的概率α计算为:1-(1-0.05)3=14.3%,即导致了阴性检验结果出现假阳性的错误结果。

为了更好的统计检验三组以上的均值差异比较,更合适的统计方法为方差分析,其优势就在于只需要进行一次假设检验,即H0假设为多组均值是否相等,然后根据检验值F计算得到P值,和α进行比较即可,而两两比较采用校正α值(即原α值/两两比较次数),可使最终累计的概率α为原α值。

NO.3忽略配对资料的特殊性

案例1:某院新引进仪器测定10名健康男青年的血红蛋白含量(g/L),结果见下:探究两种血红蛋白测定仪器检测结果是否有差别,研究者分析时,使用成组t检验。

案例2:某研究观察戒酒干预效果,招募60例志愿者,其中饮酒34例,不饮酒26例,干预后,饮酒者19例,不饮酒者41例,研究者分析时,采用卡方检验。

解析:这里发生的错误是,研究者忽略了配对资料应使用更适当的配对检验统计

方法。

配对资料有着其特殊性,即配对设计可以减少实验误差和个体差异对结果的影响,从而提高统计的能效。

配对设计主要有以下3种类型:①两同质受试对象配对分别接受两种不同的处理,例如治疗、测量;②同一受试对象分别接受两种不同处理,例如不同治疗方式;③同一受试对象接受处理前后比较,例如治疗前后。因此案例1与2应分别用配对t检验及配对卡方检验处理。

NO.4忽略等级资料的特殊性

案例:某研究比较两种护理方式对乳腺癌患者术后护理的满意度进行比较,见下表,研究者通过卡方检验求得两组护理满意度评价差异的P值<0.01。

解析:这里发生的错误是,研究者忽略了等级资料的统计处理方式。

这个例子中,护理满意度包括满意、一般与不满意实际为有序分类变量,不同于定量与定性资料,是一种等级资料。

这个例子中,宜采用两个独立样本比较的Wilcoxon秩和检验,虽然与卡方检验方法最终都可以得到有统计学意义的结果,但卡方检验方法得出的结果是两组不同满意度之间频数差异是否有统计学意义,无法体现平均程度或者等级的差异性,而等级资料往往属于半定量数据且偏态分布,更推荐使用秩和检验,得出的是两组不同满意度等级之间的差异是否有统计学意义。

NO.5忽略卡方检验前提条件

案例1:某项研究中,研究者考察了两组治疗后疗效的情况,结果如下:

案例2:某项研究中,研究者考察了冠心病、非冠心病患者ALDH2基因型分布的情况,结果下:

解析:这里发生的错误是,对计数资料进行卡方检验分析时,研究者忽略了前提条件。卡方检验,通常指经典的Pearson卡方检验,其检验值χ2的大小反映了统计样本的实际观测值与理论推断值之间的偏离程度,即χ2越大,越趋近于不一致,比如两种结果不一致,两组变量相关等。

但处理不同数据时,使用何种卡方检验需要先注意前提条件是否符合:

对于案例1,属于2×2变量资料,即四格表,相应的前提条件及检验方法是:①若样本总量n≥40且期望频数T5时,用Pearson卡方检验;②若n≥40且有期望频数1≤T≤5时,用连续型校正的卡方检验;③若n<40或T<1时,用Fisher确切概率法。

其中n为样本量,T为每个格子的理论频数(注意不是实际频数,公式所在行的频数之和*所在列的频数之和/总频数),由于案例1中总样本数n=33<40,因此需要用Fisher确切概率法。

对于案例2,属于R×C资料(Row×Column),即变量超过2×2时,相应的前提条件及检验方法是:①若样本总量n≥40且期望频数<5的T个数小于20%且≥1时,用Pearson卡方检验;②若n<40或有期望频数T<1或<5的T个数大于20%时,用Fisher确切概率法。

由于案例2中有33.3%(2/6)的期望频数T=(3×30/60)=1.5<5,因此需要用Fisher确切概率法。

由于篇幅有限,关于多因素回归分析、临床试验设计等相关问题且听下回分解~

不知以上内容对您是否有所启发呢?亦或有更多的疑问需要咨询?您的临床研究项目是否遇到统计学方法的难题?欢迎留言给小编。医瑞贝专注生物医学研究,望能成为您的技术实验服务伙伴。

参考资料

[1]方积乾.生物医学研究的统计方法[M].北京:高等教育出版社,:-.



转载请注明:http://www.lingshanl.com/yxlb/85843.html

  • 上一篇文章:
  • 下一篇文章: 没有了