2024(18th) 中国卫生信息技术/健康医疗大数据应用交流大会(2024 CHITEC)将于2024年7月5-7日在重庆举办。大会组织平行专题交流及成果与应用技术主题展,全面展示我国卫生健康信息领域卓越实力和水平。
本届大会上将发布第三届CHITEC数字医疗健康创新服务典型案例征集结果。自案例征集活动启动以来,得到全国各医疗卫生机构、高等院校、科研院所的积极响应。
由烟台毓璜顶医院申报,医渡科技旗下医渡云联合申报的“医疗大数据驱动的科研平台建设及应用”案例入选数字医疗健康创新服务典型案例。现与大家进行分享,促进交流合作。
烟台毓璜顶医院始建于1890年,其前身是美国长老会创办的教会医院。经过130多年的发展,现已发展成为烟台市最大的综合性医疗保健中心、三级甲等综合医院、山东省区域医疗中心。
医院设有50个临床科室、18个医技科室,其中有国家级重点学科1个,国家临床重点专科3个,山东省临床医学研究中心1个,山东省临床精品特色专科3个,山东省医药卫生重点学科5个,省重点实验室5个,山东省临床重点专科30个,山东省中医药重点专科3个。
2018年以来,获国家自然科学基金38项,省级课题96项,发表SCI收录论文1710篇,最高影响因子168.9分,医院的整体科研实力和学术水平居国内地市级医院前列。
医院网络信息管理处共33人,其中,博士生1人、研究生13人,本科生19人。分设系统运维组、网络运维组、安全运维组、维修组。网络信息管理处全面负责医院信息化规划、建设、管理维护工作,全面负责网络安全建设及管理维护工作。
医院经过长期的信息化建设,构建了相对完备的信息化系统。在各平台的使用过程中,产生了大量的数据,这些数据分散在几十个甚至上百个临床系统中。这些来自不同系统的数据之间是完全割裂的,或者只达到了部分联通。
这些数据除了一些简单的已经被结构化录入的数据(如患者性别、检查种类)外,还有大量数据在录入系统时,采用的是非结构化方式输入,如一诉五史、病程记录、影像检查报告等。这些非结构化信息往往是更具有临床价值的信息。
“科研构思难、数据获取难、想法验证难、数据处理难”的传统科研模式已无法实现以上问题,为推进信息标准化工作,促进标准的规范和实用,实现分散数据资源的集成和利用,实现医院的大数据挖掘和利用,以及真正的知识库和高级决策支持,基于大数据及人工智能技术进行临床研究的新模式应运而生。
基于对病历数据的理解,特别设计了一种基于多层次医疗术语抽取技术的医学自然语言处理方法,以实现对病历自由文本的语义分词。通过机器学习技术与语义分词的结合,可以持续完善分词的准确度和精细度。这种模式可以替代传统的数据摘抄模式,在提高数据获取效率的同时,为科研提供了更广泛的数据资源。
实现医学统计算法的集成与嵌入,数据无需导出即可进行线上实时统计分析,结果快速可靠。除覆盖比较均值分析、回归分析、相关分析等基本统计分析算法外,还引入了高级挖掘算法,如:决策树和主成分分析等。降低了科研统计专业的门槛,方便医生随时验证研究想法,快速生成统计结果。
基于云计算及大数据技术,整体采用Hadoop 2.0技术框架及Spark并行计算框架,采用了应用与计算能力的架构设计,并采用了Docker封装技术。 完成整个大数据平台的数据处理工作,其具备的基础功能有:OGG / CDC / ETL等技术、结构化、清洗归一、数据挖掘、索引构建、机器学习等。
大数据平台需要解决数据获取、数据清洗等方面的工作,将医院的医疗信息子系统的数据进行抽取、同步、汇集、结构化、映射到兼容国际国内医疗数据规范标准的全局标准、统一的数据结构平台中,对字段信息清洗和语义归一,为上层应用服务提供准确的基础数据支撑和业务模型训练。
将医院各相关应用系统的数据库作为数据源,通过ETL等工具进行数据的抽取同步清洗转化,在此过程中,着重对患者的敏感信息进行处理,然后加载到医院标准数据的Schema数据仓库中,先做数据集中,然后进行清洗和关联操作,这个过程参考HL7相关标准,建立临床数据标准的数据集,数据加工的过程做“数据归一处理”,形成面向应用的标准数据集。
另外,医生在临床工作中会记录大量自然语言信息,非结构化数据,这部分数据在既往是无法挖掘的。通过自然语义处理技术,结合医疗专业术语的语义结构,按照临床专家的医学逻辑,进行数据处理,将原始的自然语言表达分析处理为结构化的可用数据,为后续的应用、挖掘、机器学习提供基础数据支持。通过医用术语的归一和结构化处理后,再进行检索时,一并获取检索结果。
截至2024年03月,已入库治理6大厂商,12个信息系统的临床数据8000余万条,包括800多万份病人和超过600万份病历数据。形成数据治理规则3000余条,结构化数据指标2857个,数据质量核查规则1240个,基于此建立多病种疾病数据模型。
已支撑面向冠心病、耳鼻喉疾病、甲状腺肿瘤、生殖遗传病、乳腺疾病、泌尿系肿瘤、哮喘7个科研科室建立了专病数据库库,已有20余个研究模型成果转化反哺临床。
以疾病为单元,构建覆盖患者全病程数据的科研数据库,通过自然语言处理、机器学习等技术使多源异构的临床数据变成满足临床研究细粒度要求、可直接用于临床研究统计分析使用的结构化、标准化的高质量数据,为医院实现数据应用奠定坚实的研究级数据基础。
临床研究平台融合人工智能技术,实现复杂的患者检索、灵活的项目管理、全面的数据质量管控、自动化数据清洗、高效的数据分析挖掘等功能,辅助医生提高科研效率,降低临床研究门槛,提升科研积极性。
通过历史电子医疗数据和实时医疗数据的集成与治理,建设医院特色的高质量专病数据资产库,依托大数据平台,充分挖掘医院医疗大数据,构建“临床行为产生数据,洞察数据辅助决策,反馈临床行为”的数据驱动闭环流程,从而以数据的角度提高医院临床治疗效果与临床质量。
通过建立科研专病数据库,整合、加工院内符合标准的患者诊疗信息,实现临床医生对精准患者临床全量数据的结构化存储和管理,实现数据快速更新,高效复杂检索,多项目管理等需求,确保数据质量,提高科研效率。
科研专病数据库的建立对相关病种数据进行标准化描述、深度分析应用,为实现医学大数据精准科研工作应用提供重要工具。
科研信息平台应用的意义在于,科研课题与成果由以数量取胜逐渐转变为数量稳定, 层次不断攀升,高水平成果、论文、学术研究等大幅度提升, 体现出科技是第一生产力和“科技兴医、质量兴院”的强大世态, “数字化医院管理、人性化医疗流程TCG彩票、高水平科技创新、低成本高效经营”的战略目标逐步实现。
基于人工智能技术的科研专病数据库建设,实现了数据的重复利用和价值提升,专科疾病队列建设的意义在于为疾病的早期预防和干预提供数据依据,优化个体化医疗决策和治疗策略,推动临床转化和新疗法研发。
因此,建立和维护一个全面、准确、实时更新的专病数据库对于科研和临床实践非常重要。
通过整合和共享专病相关数据,促进专病研究的进展,并为临床医生提供更好的决策支持。在技术的推动下,我们期待科研专病数据库能够更加全面、准确和智能,对我国疾病的预防、治疗和管理产生深远影响,为人类健康做出更大的贡献。