原载:传染病信息年8月31日
作者:卢姗姗,贾晓东,张宁,陆荫英
摘要
年全球癌症统计数据显示,世界范围内癌症的发病率和病死率呈持续增高趋势,癌症已成为危害人类健康的重要杀手,也是当今医学研究的热点话题。
随着生物信息技术的迅速发展和精准医学大数据的崛起,世界各地的研究人员构建了大量功能不同的癌症数据库,利用现代生物信息技术对大量临床医疗数据进行深度挖掘与分析,数据库的建立为癌症的机制学研究提供了丰富的数据来源和人群支持。
本文主要对目前国内外癌症数据库的研究进展进行介绍,并结合我中心建立的肝癌临床数据库,探讨其在癌症研究方面的应用及意义,对我国乃至世界各癌症数据库的发展提出展望。
引言
全球癌症统计数据显示,年全球新增万癌症新发病例和万癌症死亡病例。全球癌症发病率和病死率正在呈现逐年递增的趋势。癌症已成为全世界人口疾病死亡的重要原因,严重威胁着人类的生命健康。
癌症中肺癌的发病率最高,其次为胃癌、结直肠癌和肝癌;同时肺癌的病死率也是高居第一,其次为肝癌。随着癌症患者人数的上升,其产生的临床医疗数据也越来越庞大,医生工作站作为传统的医疗记录模式,已不能满足科研工作者对临床数据的挖掘、分析和利用。
年美国前总统奥巴马宣布启动“精准医学计划”,由此产生了海量的医疗数据及基因组信息、代谢组信息、微生物信息等生物学大数据。
为了更好的存储、管理、分析和利用这些医疗大数据,世界各地众多癌症研究机构纷纷建立起医学信息数据库,为肿瘤的诊断、治疗、生存、预后等领域带来了跨时代的变革。
具有回顾性兼前瞻性、信息完整性及统计分析功能的数据库,可有效解决大数据时代医疗数据集成化管理的难题,也将对肿瘤发生、发展的机制学研究产生重要的临床价值。
本文将结合我中心建立的肝癌数据库,对世界范围内报道的肿瘤数据库的发展历程及研究现状作一综述。
1 肿瘤数据库的概念及特点
随着现代医学科技的发展和医疗信息的不断完善,医疗领域每年都会产生大量的医疗数据,据推测到年,医疗数据将急剧增长至35ZB,数据量相当于年的44倍。
尤其是全球范围内发病率和病死率迅速增长且预后极差的癌症,传统的医疗工作站已不能满足如此海量数据的存储、管理和利用。
在众多疾病死亡谱中,建立以肿瘤为代表的癌症数据库已成为全球势不可挡的发展趋势。
临床数据库是患者医疗大数据和社会统计学信息的存储库,是对某些特殊疾病的发病状况和暴露情况进行管理、归纳、分析的数据库。
肿瘤数据库旨在收集肿瘤患者临床病例资料,包括肿瘤患者的基本信息、生化检验结果、影像数据、病理信息、诊疗方式、疗效评估、随访结局及各种组学信息等,具有存储容量大、临床信息多样、导出方便、便于统计分析等特点,已成为全球研究肿瘤流行病学、诊断学、发病机制、治疗效果、生存预后的有效工具。
2 国外肿瘤数据库的发展现状及意义
19世纪之前,人类对肿瘤临床数据的收集、归纳、管理及分析还一无所知。随着对癌症资料的不断统计分析,统计学家发现癌症的全球发病率和病死率呈现出不断上升的趋势,但对癌症的认识也仅限于此。
随着时代的不断发展,技术的不断更新,越来越多的学者开始注意到统计分析癌症人群临床病例资料是研究癌症流行病学的重要手段,因此,建立肿瘤临床数据库已成为必然趋势。
年,医院建立了一个小型的肿瘤临床信息数据库,主要记录了50例原发性肺癌患者的基本信息及组织学特征,统计分析了原发性肺癌的诊断、最优治疗方式的选择和生存结局。
年,美国学者也开始注意到收集以肿瘤患者为基础的临床信息可有助于肿瘤流行病学和机制学的研究,医院单中心临床数据的采集和统计分析。
年,第一个全国性的肿瘤临床数据库在丹麦诞生,并得到了丹麦医学会及国家委员会一致的支持和资助,这对肿瘤临床数据库的后期发展产生了很大的推动作用。
年美国国立癌症研究所(NCI)资助组建的肿瘤临床试验西南肿瘤数据库(SOGD),覆盖了美国多个临床试验,病例数超过例,对肿瘤领域新药的研发及患者预后改善作出了巨大的贡献。
“监测、流行病学和结局”(SEER)数据库是NCI在年建立的北美地区最具有代表性的综合性癌症数据库,是美国癌症数据统计分析的最具权威性来源。该数据库记录了美国部分州县上百万例恶性肿瘤患者的临床信息,几乎涵盖了所有类型肿瘤的医疗数据,具体医院的诊疗编号、基本信息、肿瘤位置、肿瘤大小、肿瘤数目、肿瘤侵犯程度、转移情况、治疗经过、随访结局以及死亡原因等,并统计了患者的发病率、病死率及预后相关的信息情况,旨在减轻美国人的癌症负担。—年,SEER数据库的记录已达到条,该数据库最大的优点是免费向公众提供部分数据下载,为临床医师对循证医学实践及临床肿瘤学研究提供了丰富的医疗资源和数据支持。
年,由美国外科医师学会、美国癌症学会以及癌症委员会(CoC)联合创建的国家癌症数据库(NCDB)医院的临床肿瘤学数据库。此项目包含CoC认可的多个医疗机构,约万医院的癌症临床数据,也是目前世界上公认最大的全国性肿瘤数据库。主要包括肿瘤患者的基本特征、分级分期、病理学特点、诊疗经过、疗效评价和生存结局等,并对库内所有患者进行长期的随访和追踪,形成了一个动态性的数据库。
在美国所有最新诊断的癌症病例中,约有70%发生在一级医疗机构中,根据CoC规定的肿瘤学数据注册标准和北美协会制定的国家肿瘤数据标准化传输格式,从CoC认可的癌症项目注册医疗机构处采集肿瘤数据,最后再上报给NCDB。
因此,从肿瘤患者的选择到临床数据的采集,形成了一个严格的流程管理体系,为数据库的高质量、高水准提供了有力的保障。
年以后,世界各地建立的肿瘤数据库逐渐增多(详见表1)。
如年,韩国建立的多中心前列腺癌数据库,包括了患者人口统计资料、预处理、治疗方式、随访结局4个领域的个变量,分析了韩国多个地区前列腺癌患者的流行病学特征及发病特点。
英国建立的单中心肿瘤数据库,包括医院所有癌症患者的入院诊疗信息,主要分析了其临床特点,用于癌症的临床性研究。之后,英国开始建立不同肿瘤类型的数据库,包括各类实体瘤和血液性恶性肿瘤,精准的记录了患者的复发、转移情况,分析了肿瘤的发病特点、术后情况、生存相关影响因素等。日本、丹麦、澳大利亚带有不同地域特色的肿瘤数据库也相继出现,从肿瘤学的不同角度、不同领域分析了肿瘤的发病特点及治疗结局。
目前,在Pubmed搜索中,基于SEER数据库发表的外文文章数量高达篇,基于NCDB发表的外文文章数量高达篇。
中国知网数据库搜索中,基于SEER数据库发表的中文文章也有篇。
发表的研究成果主要涉及肿瘤的发病特点、治疗方式、组织学特点、术后并发症、病理特征、分级分期、预后因素等,对肿瘤的临床性研究提供了丰富的数据来源和科学的理论依据。
由以上可见,临床数据库的建设可广泛用于癌症预防与研究的方方面面,可动态的掌握癌症发病和死亡的变化趋势,对研究癌症的流行病学、病因学、发病机制、评价预防、治疗效果以及制定癌症预防计划和卫生事业发展规划等具有重大意义。
3 我国肿瘤数据库的发展现状及意义
我国肿瘤临床数据库的建设起步较晚且发展速度较慢。
起初,都是国内一些癌症高发地区简单的对癌症的发病率进行登记。
年,上海成立的第一个癌症信息登记平台,研究学者将平台中的数据统计分析后发表在了《五大洲癌症发病率》杂志上。
年天津地区成立了肿瘤登记平台。
随后一些特殊高危地区的肿瘤临床数据平台也开始设立:林县(食道癌)、慈县(胃癌)、长乐(胃癌)、嘉善(结肠癌)、扶绥(肝癌),这些平台监测了癌症的发病率、病死率和预后生存相关风险因素,为科研人员对当时癌症的了解提供了良好的理论支持。
随着癌症登记平台的不断发展,经过多年的不断探索,同时借鉴国外肿瘤数据库的建设经验,国内肿瘤临床数据库也开始慢慢出现。
年,钱彪等建立了一个规范化的膀胱癌数据库,包括膀胱占位病变患者的基本临床资料,并对膀胱癌术后患者进行了长期的随访追踪,探讨了影响膀胱癌术后复发的独立危险因素,为预防膀胱癌患者术后复发提供了临床依据。
年,Lv等以—医院诊治的例乳腺癌患者临床数据为基础,建立了包含如基本信息、生化结果、影像学信息、术前诊断、手术方式、TNM分级分期、术后并发症及生存结局等信息的乳腺癌临床数据库,并初步探讨了其临床应用价值与特点,为进一步研究乳腺癌的发病特点提供了详细的临床数据。
林芷伊等收集了—年在石河医院诊治的肺癌患者的临床数据,并结合患者的血液标本,建立了肺癌数据库,为肺癌防治医学研究及发生发展机制学研究提供了数据支持。虽然国内建立了不少肿瘤数据库,但收录的大部分都是单中心的临床信息,具有一定的地域局限性,只能用于简单的数据分析,并不能代表整个中国的肿瘤发病特点。
因此,致力于建设国内多地区、多医院、多中心、具有中国代表性的肿瘤数据库成为一种发展趋势。
年,医疗大数据公司索闻博识建立的博识医疗云数据库是一家专注于各类肿瘤数据结构化的医疗大数据平台(