中华生物医学工程杂志, 2022,28(5) 王心旺.
本讲概述基于病因探索的队列研究的学术定义、基本原理、设计要点、研究对象与样本量估算、分析指标、统计分析方法、报告撰写规范和经典研究案例。
1 队列研究的学术定义
队列研究(cohort study)也称前瞻性研究(prospective study)、随访研究(follow-up study)、纵向研究(longitudinal study)等。队列研究是将队列人群按照是否暴露于某个研究因素以及暴露等级不同分为不同的研究组,追踪随访适当长的时间,比较不同研究组之间疾病或结局发生率的差异,来判定暴露因素与结局(与暴露因素有关的结局)之间有无关联及关联大小的一种观察性研究方法[]。队列研究的最主要目的是探索病因,即进一步验证现况调查或病例对照研究中已发现的有特异影响、且在统计学上有联系的危险(或保护)因素。
2 队列研究的基本原理
如图1所示,队列研究的基本原理是选定一组研究人群,根据过去或目前的暴露情况进行分组[按有无暴露因素分组:暴露组和对照组(非暴露组);按暴露因素的水平分组:低、中、高剂量组],随访观察各组的结局(发病或死亡),比较各组发病率或死亡率(Ie与I0)的差异,从而判定暴露因素与发病有无因果关联及关联大小。
3 队列研究的设计要点
3.1 观察性研究
根据暴露的自然存在状态分组,无人为控制,也不存在随机分组;
3.2 时间顺序
从"因"到"果",确证暴露因素与疾病的因果关系。
3.3 前瞻性研究
能准确计算出结局的发生率(如发病率、死亡率等率的指标),估计暴露人群发生某结局的危险程度。
4 队列研究的研究对象与样本量估算
队列研究的研究对象是还没出现研究结局,但有可能出现研究结局的人群(susceptible population),需设立纳入及排除标准,剔除已生病个体或明确不会生病的个体,在进行传染病危险因素的研究时,需考虑个体被感染的概率。
队列研究的样本量估算需要事先确定以下参数:一般人群(非暴露组的)所研究疾病的发病率或死亡率p0、暴露组所研究疾病的发病率或死亡率p1以及显著性水准(第一类错误概率)α(一般取值0.05)和把握度(1-β),β为第二类错误概率,一般取值0.2。然后代入公式进行推算:
5 队列研究的分析指标
队列研究数据可以采用四格表进行整理(见表1),并根据研究目的计算有关分析指标(见表2)。
6 队列研究的统计分析方法
队列研究是在病例随访表的基础上,建立队列研究的基线数据库及随访数据库,然后进行资料的清洗、核查,填补缺失数据,锁定数据库。对队列研究资料可采用统计描述、统计推断、统计模型和统计模拟进行统计分析。
6.1 统计描述
即采用队列研究的特征性指标去描述两组研究对象的基线特征、随访时间、失访比例、两组的可比性;采用队列研究的分析指标去描述暴露组和非暴露组研究结局(疾病的发生、治愈或死亡)的发生率(治愈率、死亡率)、累积发病率、发病密度、标化比、相对危险度、归因危险度、归因危险度百分比、人群归因危险度等指标。
6.2 统计推断
即采用U检验、χ2检验、生存分析等方法去推断暴露组和非暴露组研究结局的发生率之间的差异。若两组研究结局发生率经统计学检验有差异,则可进一步分析暴露与结局的关联性强度。在实际工作中,常将致病因素分为由低至高的几个不同的暴露水平,采用检验方法进行反应与剂量间是否存在线性趋势的假设检验,以便更好地揭示出某致病因素的暴露水平与发病率之间的剂量-反应关系(dose-response relationship)。
6.3 统计模型
即采用Cox回归和logistic回归等统计模型去分析判断多个暴露因素与研究结局之间的关联程度(因果联系)以及多个暴露因素之间的交互作用。
6.4 统计模拟
即采用蒙特卡罗模型与分层抽样模拟算法去估算一个队列中暴露因素对研究结局的关联程度和潜伏期。
7 队列研究报告撰写规范
在撰写队列研究的结果报告和论文时,可参照加强观察性流行病学研究报告的质量规范(strengthening the reporting of observational studies in epidemiology,STROBE)中的要求进行[]。该规范可从网上免费下载,网址为:http://www.strobe-statement.org/fileadmin/Strobe/uploads/checklists/STROBE_checklist_v4_cohort.pdf. STROBE报告指南22个条目介绍见表3。
8 队列研究经典案例
国外最著名的队列研究案例是1964年英国学者Doll R和Hill A.B将4万名英国注册医生分为吸烟、不吸烟组,观察两组肺癌发病率,年平均发病率分别为1.66%和0.07%,强烈提示吸烟的致癌作用。Doll和Hill应用队列研究方法阐明了吸烟和肺癌的关系,为研究多种癌症的病因和原因未明的疾病提供了一个典范[]。Doll和Hill在"肺癌及其他死因与吸烟之关系"中宣布吸烟与肺癌有因果联系,并由此提出了作为因果关系推断标准的Hill准则,包括9项标准:(1)时间顺序(temporal order);(2)关联强度(strength of association);(3)剂量反应关系(dose-response relation);(4)结果的一致性(consistency);(5)实验证据(experimental evidence);(6)合理性(plausibility);(7)生物学一致性(coherence);(8)特异性(specificity);(9)相似性(analogy)。在Hill准则的基础上,1991年美国流行病学家Marvyn Susser增加了预测力(predictive performance)一项[],使该准则共有10项标准。该准则用于建立推定原因和观察效应之间因果关系的流行病学证据,被广泛应用于公共卫生研究[]。
国内队列研究的著名案例较多,如华中科技大学公卫学院邬堂春院士牵头开展的"东风同济队列研究"就取得了多项成果。其中,为探讨饮酒与中老年男性2型糖尿病(T2DM)发病风险的关联性[],邬堂春队列研究团队利用东风同济队列,于2008年在湖北省招募了27009名东风汽车公司离、退休职工,基线调查采用半结构化问卷收集饮酒信息和相关协变量,并进行了体格检查、血糖和血脂等测定。从队列中选取男性并排除基线调查时已患糖尿病、冠心病、卒中和恶性肿瘤者,最终纳入6784名男性。2013年进行随访,通过研究对象的医疗保险号收集其疾病或死亡结局,应用COX比例风险模型分析不同饮酒特征和模式与T2DM的关联性。研究结果表明:总体上饮酒与T2DM发生风险无关,但平均乙醇摄入量>20g/d或饮酒频率>7次/周会增加T2DM发生风险。
转自:“医学科研与管理空间”微信公众号
如有侵权,请联系本站删除!