1.Logistic回归模型概述(读者可以忽略这部分)
Logistic回归模型是一种概率模型,它是以某一事件发生与否的概率P为因变量,以影响P的因素为自变量建立的回归模型,分析某事件发生的概率与自变量之间的关系,是一种非线性回归模型。适用于因变量为二项或多项分类(有序、无序)的资料。利用logistic分布函数的特征来表示在自变量X的作用下出现阳性结果或阴性结果的概率。阳性结果的概率记为:P(y=1
x),(在X作用下,出现Y=1的概率);出现阴性结果的概率为:Q(y=0
x),其中:P+Q=1。当模型中只有一个自变量时,logistic回归模型可表示为:
(1)
(2)
式中,为回归线的截距,是与X有关的参数,称回归系数。
(3)
注意:P/Q称为事件的优势,在流行病学中称为比值(odds)。
当有多个X时,logistic回归模型:
(4)
(5)
式中,为截距,(j=1,2,…,p),称偏回归系数。
(6)
式(1)或式(4)称为logistic回归模型。
(1)
(4)
经logit变换:将S型曲线转化为直线
(3)
(6)
对式(3)和式(6)两边取自然对数得:
(7)
(8)
记为:
经logit变换之后,这就是线性回归方程,说明:(1)把ln(P/Q)称为logit(P)变换;(2)P/Q称为事件的优势,在流行病学中称为比值(odds)。因此,优势的对数值与影响因素之间呈线性关系。
2.一些基本概念
2.1优势比
如前所述,人们常把出现某种结果的概率与不出现的概率之比称为比值(odds),即odds=P/1-P。两个比值之比称为比值比(oddsratio,也翻译成优势比,简称OR)。比如,暴露组的优势(比值)与非暴露组的优势(比值)之比,称优势比(比值比)(OR),在这里OR用于说明暴露某因素引起疾病或死亡的危险度大小。
(9)
(10)
P(1):X取1时,暴露组结局事件发生概率;P(0):X取0时,非暴露组结局事件发生概率
2.2Logistic回归系数的意义
由上式可见:或者。的意义是:在其他自变量固定不变的情况下,自变量的暴露水平每改变一个测量单位所引起的优势比(OR)自然对数的改变量,或引起优势比为增加前的倍。从数学上讲,beta和多元回归中系数的解释并无不同,代表x改变一个单位时logit(P)的平均改变量,但由于odds的自然对数即logit(P)变换,因此logistic回归模型中的系数和OR有着直接的变换关系,使得logistic回归系数有了更加贴近实际的解释,从而也使得该模型得到了广泛的应用。
3.案例
Hosmer和Lemeshow于年研究了低出生体重婴儿的影响因素,数据如下图。结果变量为是否娩出低出生体重儿(变量名为LOW,1=低出生体重,即婴儿出生体重g;0=非低出生体重),考虑的影响因素(自变量)有:产妇妊娠前体重(lwt,磅);产妇年龄(age,岁);产妇在妊娠期间是否吸烟(smoke,0=未吸、1=吸烟);本次妊娠前早产次数(ptl,次);是否患有高血压(ht,0=未患、1=患病);子宫对按摩、催产素等刺激引起收缩的应激性(ui,0=无、1=有);妊娠前三个月社区医生随访次数(ftv,次);种族(race,1=白人、2=黑人、3=其他民族)。
4.SPSS录入数据
图1变量视图
图2数据视图
5.SPSS操作过程
5.1步骤1
分析→回归→二元Logistics回归,如图3所示。
图3步骤1
5.2步骤2
把因变量及自变量选入相应的框中,如图4所示。
图4步骤2
5.3步骤3
设置哑变量,如图5所示。因为SPSS默认将所有的自变量均视作连续性变量,如本例,不同种族的变量赋值为1、2、3,但这仅仅是一个代码而已,并不意味着白人、黑人、其他民族间存在大小次序的关系,即并非代表产妇娩出低出生体重儿概率的logit(P)会按此顺序线性增加或减少。即使是有序多分类变量,比如疾病分期分为早、中、晚三个期别,各类别间的差距也是无法准确衡量的,按编码数值来分析实际上就是强行规定为等距,这可能会引入更大的误差。此时,就必须将原始的多分类变量转化为数个哑变量,每个哑变量只代表某两个级别或若干个级别间的差异,这样得到的回归结果才能有实际意义。
图5步骤3(设置哑变量)
5.4步骤4
做如下勾选,输出回归系数的反对数结果,即OR值。
图6步骤4
6.SPSS计算结果解读
6.1哑变量设置结果如下图所示:
CategoricalVariablesCodings
Frequency
Parametercoding
(1)
(2)
种族
白人
96
1.
.
黑人
26
.
1.
其他种族
67
.
.
图7哑变量设置结果
6.2预测分类结果
随后将开始进行模型拟合,首先给出的是模型不含任何自变量,而只有常数项(即无效模型)时的输出结果,故标题为:“Block0:BeginningBlock”。图8显示了预测分类结果。由于模型中仅含有常数项,将所有的观察对象均判断为正常出生体重儿的正确率为68.8%,实际上就是全部研究对象的正常体重概率/=0.。也就是说,由于当前样本中大部分新生儿为正常出生体重,因此当模型中不包含任何自变量时,样本中所有观察对象皆被预测为正常出生体重,总的预测准确率为68.8%。
图8预测分类结果
6.3模型汇总结果
基于无效模型,现在开始在分析中引入自变量,由于本例尚未涉及变量筛选的问题,因此标题为“Block1:Method=Enter”。图9输出了当前模型的-2log(似然值)和两个伪决定系数(“伪”表示与线性回归模型中的决定系数相区别)CoxSnellRSquare和NagelkerkeRSquare。后两者从不同角度反映了当前模型中自变量解释了反应变量的变异占反应变量总变异的比例。但对于Logistic回归而言,通常看到的模型伪决定系数的大小不像线性回归模型中的决定系数那么大。
ModelSummary
Step
-2Loglikelihood
CoxSnellRSquare
NagelkerkeRSquare
1
.a
.
.
a.Estimationterminatedatiterationnumber5becauseparameterestimateschangedbylessthan..
图9模型汇总结果
6.4引入变量后的预测分类结果
这是应用引入自变量后重新拟合的回归模型进行预测的分类表格,P0.5判断为出现阳性结果(正常体重)。此处例研究对象中共有(+16)例判断正确,总正确率为73.0%。
图10引入变量后的预测分类结果
6.5回归方程中的变量(最重要的结果)
输出了模型中各自变量的偏回归系数及其标准误、Wald卡方、自由度、P值、OR值及可信区间(即表格最右侧的Exp(B))。由此可以得出结论,纳入回归方程的变量除age以外,其余回归系数均有统计学意义。孕妇体重每增加一个单位则出生低体重婴儿的风险降低(OR=0.,P=0.)。白种人叫其他人种更倾向于生育低体重婴儿(OR=0.,P=0.),黑种人叫其他人种并未见统计学差异(OR=1.,P=0.)。妊娠期间吸烟的产妇较不吸烟的产妇生育低体重婴儿的风险增加(OR=2.,P=0.)。患有妊娠期高血压的产妇生育低体重婴儿的风险较无妊高症产妇增加(OR=5.,P=0.)。这里的常数项无实际意义。
参考文献
[1]张文彤主编.SPSS统计分析高级教程.北京:高等教育出版社,.
笔者周支瑞,医院放射治疗科在读博士生,AME兼职scienceeditor。主要研究方向:恶性肿瘤放射治疗的放射生物学研究、恶性肿瘤放射治疗的循证医学研究、循证医学与meta分析方法学研究。目前以第一作者、共同第一作者及合作作者发表SCI论文20余篇,以第一作者在中文核心期刊发表论文6篇,参编循证医学与统计学相关学术著作三部(《实用循证医学方法学》第2版、《傻瓜统计学》,《高级meta分析方法学》即将出版)。业余时间担任丁香园网站循证医学讨论版版主,《JournalofThoracicDisease》杂志的sectioneditor,《ChineseJournalofCancerResearch》、《InternationalJournalofClinicalPractice》等多本SCI杂志审稿人。
本文题图来自网络。
本文由「AME科研时间」首发,媒体转载请注明出处。让我们一起爱临床,爱科研,也爱听故事。
AMECollege即将开课,现正火热报名中,名额有限,先到先得。欢迎点击“阅读原文”,参与在线报名。
周支瑞赞赏
推荐文章
热点文章