北邮王光宇教授团队在《自然》子刊发表重要学术成果
2025-09-18 09:36 来源:  北京号
关注

2025年9月5日,北京邮电大学信息与通信工程学院王光宇教授联合北京大学等多学科团队在《Nature Biomedical Engineering》在线发表了题为“A generalist foundation model and database for open-world medical image segmentation(https://www.nature.com/articles/s41551-025-01497-3;面向开放世界影像分割的通才基础大模型与数据库)”的研究文章。(文章通讯作者:北邮教授 王光宇;共同一作:北邮博士 张思琦、北邮博士生 岳靖昆)

该研究获得国家自然科学基金、国家重点研发计划项目、新基石科学基金会所设立的科学探索奖、科技创新2030-“新一代人工智能”重大项目资助,香港中文大学(深圳)崔曙光院士团队提供了算力平台支持。

医学影像分析是医疗决策中的关键任务,涉及从原始图像数据中准确识别和分割出感兴趣区域(如器官或病变)并进一步实现诊断和评估。近年来,人工智能(AI)与大模型在医学影像领域展现出了巨大潜力,然而现有的影像基础大模型在多源数据混合预训练中易引入与特定下游任务无关的信息,易导致“负迁移”现象并削弱特定任务性能。此外,现有大模型在开放世界(open-world)场景下的真实扩展能力尚缺乏系统性评估。

研究团队提出了一种新的通才医学影像分割大模型 MedSegX和一个可公开访问的目前最大规模的高质量影像数据库MedSegDB。其中,MedSegDB由来自129个开源数据集和5个私有数据集的数据整理而成,共包含167万对图像-掩码对,覆盖10种医学影像模态、39类主要器官和组织及111项分割任务。同时,MedSegDB基于树状层级体系构建,从而形成了可扩展、可管理的知识树,可为跨中心、跨任务的医学影像研究提供统一的数据扩展规范与丰富的语义支撑。

MedSegX模型通过层次化知识引导的混合适配器专家机制,在预训练阶段实现任务感知的参数解耦,并在推理中动态激活相关专家模块,从而在不同数据分布和任务条件下实现了高效泛化能力。研究显示,MedSegX在100个分布内(ID)任务上取得了SOTA性能,并在18个跨中心分布外(OOD)任务、7个未见过的肿瘤任务及9个真实临床分布外任务中展现出优秀的零样本和少样本泛化能力。此外,仅需5%–25%的微调数据,即可超越其他通用基础模型在使用全部微调数据时的性能。结果表明,MedSegX有望成为支撑大规模医学协同研究与智能诊疗的核心底座,为构建真正“开箱即用”的智能医学系统迈出关键一步。未来,团队将持续优化模型在多场景、多任务下的适配能力,推动形成“可表征—可计算—可预测”的一体化通用智能医学框架,作为数字生命解码与临床智能决策的关键基础设施。

附具体研究成果:

一、走近MedSegDB:高质量、有组织的大规模影像分割数据库

近年来,以Segment Anything Model(SAM)为代表的基础大模型的出现,极大地推动了计算机视觉领域的发展。然而现有可用于医学分割的公共影像数据多分散、规模有限,且往往聚焦于特定的模态、器官或病变。如何系统组织和高效利用这类大规模数据,仍缺乏相关研究。对此,团队构建了MedSegDB,一个基于树状层级体系构建的大规模影像分割数据库,并在Hugging Face上开源。

MedSegDB由来自129个开源数据集和5个私有数据集的数据精心整理而成,共包含167万对图像-掩码对,覆盖10种医学影像模态,39类主要器官和组织,以及111项分割任务。团队设计并实施了统一的预处理流程,系统解决了跨数据源异质性与部分标注缺失等问题,并基于北美放射学会开发的放射学标准词汇表RadLex与资深医学专家的专业标注,构建了一个树状解剖学层级体系(MedSegHierarchy),该层级体系通过“包含(contains)”和“部分组成(has_part)”等语义关系,将不同器官与疾病系统化组织起来,使数据不再是简单堆叠用于预训练,而是沉淀为可扩展、可管理的知识树,由此为跨中心、跨任务的医学分割研究提供了统一的数据扩展规范与丰富的语义支撑。

二、走近MedSegX:医学影像基础大模型

为解决预训练时任务无关信息导致的负迁移现象及多任务共享参数造成的任务冲突等问题,团队提出了上下文混合适配器专家架构(Contextual Mixture of Adapter Experts, ConMoAE),并开发了通才医学影像分割基础大模型 MedSegX。

其中,上下文混合适配器专家架构(ConMoAE)可以将来自 MedSegHierarchy的层级语义作为上下文知识注入混合专家模型,为不同任务生成语义相关的专家子模型,从而实现任务感知的参数解耦,以缓解多任务联合预训练时“参数冲突”导致的性能下降,并减少语义无关信息引入导致的“负迁移”现象。

该架构包括两个主要组件:上下文嵌入先验(Hierarchical Structure-based Contextual Embedding Prior, HScEP)和上下文引导的混合适配器专家网络(Context-guided Mixture of Adapters Network, CMoAN)。其中,HScEP 将MedSegHierarchy 中的节点按照层次结构关系映射为可学习的上下文嵌入向量;给定特定任务,HScEP 从根结点到叶节点搜索出一条知识路径,该路径由节点对应的嵌入向量构成,表征给定任务的上下文知识。随后,CMoAN 在上下文知识的引导下动态激活不同的专家适配器线性组合,从而为不同的任务提供独立的专家子模型,降低由不相关任务引起的负迁移影响。

MedSegX在已知/未知任务的快速适配:对于已经组织进MedSegHierarchy 中的任务,模型可直接将层次结构中的任务相关实体节点映射为上下文知识嵌入,并将其应用于下游的零样本推理和特定任务微调。对于未知任务,MedSegX通过识别与目标任务最相关的实体节点,并将其映射为解剖知识嵌入先验,随后为该未见过的任务添加一个由全零向量初始化的新任务节点,从而得到完整的上下文嵌入先验,并基于该先验完成下游任务的零样本推理和特定任务微调。这一策略增强了 MedSegX 对层次结构外任务与未知场景的适用性与可扩展性。

三、系统评估与验证:开放医学场景下的通才分割能力

为系统评估MedSegX及其他对比模型的通才能力,团队开展了覆盖多场景的实验与验证,包括(1)分布内评估(In-Distribution Evaluation);(2)分布外评估(Out-of-Distribution Evaluation);(3)临床“真实世界”评估(Real-World Evaluation),以全面刻画模型在标准数据、域外迁移与真实临床应用中的稳健性与泛化表现。

(1)分布内评估-100个医学图像分割任务,覆盖10种影像模态和5大身体部位。

MedSegX在100个分布内任务上进行了测试,覆盖10种医学影像模态和39个主要器官/组织结构。结果显示,MedSegX在不同任务、模态上都表现出了优异的性能,全面超越传统的任务定制模型(nnU-Net、U-Mamba、nnFormer)、通用小模型(DoDNet)及通才分割基础大模型(MedSAM、MedSAM2、SAM-Med2D、SAM-Med3D),达到了当前最优模型效果(SOTA)。同时,MedSegX在歧义性复杂任务上展现出比其他模型更强的有效性。

(2)分布外评估-18个跨中心分布任务和7个未见过的肿瘤任务。

MedSegX进一步在18个跨中心分布任务(例如不同的数据采集设备或人群)及7个未见过的肿瘤相关任务上进行了零样本(zero-shot)和有限数据微调(data-efficient generalization)情况下的性能评估。实验表明,MedSegX在分布外场景下实现了优异的零样本和少样本泛化能力,仅使用5%-25%的微调数据即可达到甚至超越其他医学通用分割模型使用100%的微调数据获得的性能,证明其出色的泛化能力和数据效率。

(3)“真实世界”评估- 9个代表性放射学任务,覆盖5个真实临床场景。

为推动医学人工智能从“实验室评估”走向真正“临床可用”,团队进一步联合了4家医院围绕结直肠癌、胃癌、肺癌、肝癌、肺炎等常见高负担病种,收集了5个真实临床场景数据集,共覆盖9个代表性影像分析任务。结果显示,MedSegX在真实临床场景下具备优异的零样本泛化能力,展示了其跨模态、跨中心、跨任务的广泛适用性。


作者:

北京邮电大学


打开APP阅读全文
特别声明:本文为北京日报新媒体平台“北京号”作者上传并发布,仅代表作者观点,北京日报仅提供信息发布平台。未经许可,不得转载。