News Release

综述:医学数据预训练

Peer-Reviewed Publication

Beijing Zhongke Journal Publising Co. Ltd.

预训练图解

image: 迁移学习的过程包括两步,预训练和微调。在预训练阶段学习通用特征表示,然后将预训练好的模型用于下游任务中 view more 

Credit: 北京中科期刊出版有限公司

人工智能(AI)已经成为我们生活中无处不在、影响深远的一项技术。基于人工智能的应用程序可以协助用户做决定从而影响他们的日常生活。技术的进步得益于深度学习(DL)的快速发展,尤其得益于卷积神经网络(CNN)、循环神经网络(RNN)和注意力神经网络的广泛使用。这些深度神经网络已经整合到各种研究中,包括几个子领域,比如计算机视觉(CV)和自然语言处理(NLP)。

医学数据分析是AI众多主要子领域中的一个。该任务主要侧重于处理和分析来自不同数据模式的医疗数据,提取最本质的信息,以便帮助医师在诊断时做出精准判定。计算机辅助系统有望成为健康监测和疾病诊断方面的重要工具。当前许多研究都获得了成功,比如处理和分析医学影像、电子健康记录(EHRs)、生物信号、多模态数据等。有研究者们(Hou et al.)在肿瘤前期阶段用CNN进行诊断,制定早期干预治疗计划,极大提高了患者的存活率。基于电子健康记录产生的个性化建议也被用来改进对于患者的护理。另有研究者们(Qiu et al.)通过帮助护理员有效确认心律失常从而挽救了更多生命。还有研究者(Wang et al.)利用胸透片和相关诊断报告训练了一个模型,用于疾病诊断、相似性研究和影像再生。

尽管现有研究已经取得了巨大成果,但是一些研究发现,数据匮乏仍然是目前运用DNN来处理医学数据的主要挑战之一。一方面,一些医学数据虽然可以轻松获得,但是标记这些收集到的数据则需要巨大的人力财力;另一方面,对于许多罕见或者新型的疾病诊断任务来说,由于数据太少无法获取或因为涉及到隐私问题不便收集,因而数据相当匮乏。数据不足会导致训练出的模型不尽人意,因为很可能造成过拟合和泛化性较差。为了训练出令人满意的模型,研究者提议创建一些大规模数据库。但是,创建大规模标记数据库是极其耗费人力与钱财的,因而建立大规模标记数据库是不现实的。

受到人类学习策略的启发,一些研究者提议使用预训练来解决标记数据不足的问题。根据人类学习策略,学习者可以在已经学过的知识的基础上学习新的技能。比如,学习打网球有助于学习打羽毛球。

正如此前的一项研究总结到,预训练这一技术与迁移学习和自监督学习尤为相关。作为解决数据匮乏问题的关键里程碑之一,迁移学习能够有效探索标记数据,也能充分利用未标记数据。迁移学习是机器学习的子领域,有感于人类的学习过程而设计的。迁移学习通过转移相同或相关领域的信息来学习目标领域的知识。迁移学习的过程包括两步,预训练和微调。在预训练阶段学习通用特征表示,然后将预训练好的模型用于下游任务中。

近来方兴未艾的自监督学习是另一种预训练学习范式,它获得了越来越多研究者的关注。这个学习范式主要致力于从未标记数据中提取大量信息。自监督学习无需人力标注就能自行产生监督信息。在当前研究阶段,迁移学习和自监督学习是预训练的两个主流方法。本文将高屋建瓴地介绍这两种预训练方法并对其在医学领域内的应用进行探究。

 

为什么预训练?

预训练的出现,为通过利用一小部分数据就能高效训练一个有效的模型提供了机会。本节列出了若干个原因,来说明为什么预训练是必要的。首先,使用预训练这个方法源于数据信息的匮乏,包括标记的匮乏和数据的匮乏。数据量的匮乏是指许多种类的数据都不能满足模型训练的需求量,比如一些极度稀缺的地区罕见疾病数据。预训练可以有效弥补这些信息缺失所造成的影响。通过预训练,数据群或数据潜在特点会被模型提取出来,因而对于特定内容具有更强的泛化能力。

第二,使用预训练的模型可以有效加速下游任务的收敛过程。这对于计算资源紧缺的情况尤其有利。

第三,在过去二十年里,随着各行各业的快速发展和各种高性能硬件被生产出来,许多行业每天都产生大量数据,比如医疗行业。但是,人工标记数据库的费用呈指数级上升。因此,有监督预训练方法对数据标注的匮乏存在挑战。自监督预训练能够让我们利用大量未标注数据,在开始下游任务前获得一个好的开端。

另外,随着自监督学习近年来不断取得的突破,许多研究表明,自监督预训练能够减轻在类间不平衡数据集上训练带来的影响。

预训练在医学领域有很多应用。2014年,预训练技术首次被施莱格尔等人(Schlegl et al.)用于医学领域,他们当时提出了一种半监督学习方法来提高肺组织的分类。具体来说,他们采用无监督的策略对模型进行预训练,从没有标签的影像中获取信息。我们主要关注三种模态的数据,使用预训练处理这些数据已经取得了成功:医学影像数据、生物信号和HER数据。此外,多模态也被纳入了考量范畴。比如,使用预训练的BERT模型,通过对EHR数据行语义分析,来预测诊断病情。自监督预训练模型可以完成诸如CT影像数据和核磁共振影像数据进行分类以及分割的任务。电子生物信号可以通过预训练来提取特征,从而辅助预测或诊断。相比于传统模型,在医学领域的应用中使用预训练技术,大大提高了相关任务的效率与准确度。

 

为什么这项调查是必要的?

组织本次综述调查的原因有二。首先,在过去几年中,许多使用预训练模型的研究在医学领域已经取得了满意的成果,但是对于这些预训练模型系统、综合的介绍却寥寥无几。

第二,虽然当下已有一份关于预训练的综合调查,但是在医学领域中,还没有关于预训练类的专门调查。已有的在医学领域的调查主要关注调查某个具体模态中的预训练模型。而且,大多数有关预训练在医学领域内的调查仅对医学影像中的预训练进行综述,极少数已发表的调查对处理生物信号和EHR数据进行了综述。因此,对医学领域内的预训练方法做一个系统性的综述是具有重要意义的。

 

本文贡献

就目前而言,本文是第一篇对近来预训练在医学领域(包括医学影像数据、电子生物信号数据(EEG、ECG等)、EHR数据和多模态在内)的创新进行的系统全面总结。

本文对预训练这项技术和分析以一种简单的方式呈现,适合于各种受众。但我们仍然强调,本文的主要目标读者有两类。一类是医学领域内的专业人士并且对研发电脑辅助诊断系统感兴趣的。另一类是机器学习和深度学习领域的专家,想要了解预训练在医学领域内的发展现状。

本文对近年来医学领域中以预学习为基础的技术突破和前沿进展进行了系统介绍。总结了两百多篇对预训练在医学领域的应用作出重要贡献的文献,包括医学领域内最开始引入预训练时期的文献。本文的一些主要贡献如下:

1) 首次对用于医学和临床领域内的预训练技术进行了系统的总结。

2) 本文对医学预训练模型在医学影像、生物信号数据,EHR和多模态四个主要数据类型上的应用进行了总结。

3) 本文总结了医学影像、生物信号和EHR的基准数据库。

本文其余部分结构如下。第2部分简要介绍了医学领域内的基准数据库和预训练的基本模型与方法。第3部分总结了预训练对不同数据库的医学影像分析。第4部分介绍了生物信号中的预训练。第5部分总结了EHR中的最前沿预训练方法。第6部分论述了挑战与对未来的展望。最后一部分对全调查进行了一个总结。

 

研究详情请见原文:

Pre-training in Medical Data: A Survey

http://doi.org/10.1007/s11633-022-1382-8


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.