在 2025 年 Google I/O 开发者大会上,谷歌推出了 MedGemma,这是一款专为多模态医学文本和图像理解而设计的开放模型套件。MedGemma 基于 Gemma 3 架构构建,旨在为开发者提供坚实的基础,帮助他们创建需要综合分析医学图像和文本数据的医疗保健应用。

模型变体和架构
MedGemma 有两种配置:
- MedGemma 4B:一个拥有 40 亿个参数的多模态模型,能够处理医学图像和文本。它采用 SigLIP 图像编码器,该编码器已在去识别化的医学数据集上进行预训练,包括胸部 X 光片、皮肤科图像、眼科图像和组织病理学切片。语言模型组件则基于多种医学数据进行训练,以促进全面理解。
- MedGemma 27B:一个拥有 270 亿个参数的纯文本模型,针对需要深度医学文本理解和临床推理的任务进行了优化。此变体专门针对指令进行调整,专为需要高级文本分析的应用而设计。
部署和可访问性
开发者可以通过 Hugging Face 访问 MedGemma 模型,但需同意健康 AI 开发者基金会的使用条款。这些模型可以在本地运行进行实验,也可以通过 Google Cloud 的 Vertex AI 部署为可扩展的 HTTPS 端点,用于生产级应用程序。Google 提供包括 Colab 笔记本在内的资源,以方便进行微调并将其集成到各种工作流程中。
应用程序和用例
MedGemma 是多种医疗保健相关应用的基础模型:
- 医学图像分类:4B 模型的预训练使其适合对各种医学图像进行分类,例如放射学扫描和皮肤病学图像。
- 医学图像解释:它可以生成报告或回答与医学图像相关的问题,从而协助诊断过程。
- 临床文本分析:27B 模型擅长理解和总结临床记录,支持患者分类和决策支持等任务。
适应和微调
虽然 MedGemma 提供了强大的基准性能,但我们鼓励开发者根据具体用例验证和微调模型。可以采用诸如快速工程、情境学习以及 LoRA 等参数高效的微调方法等技术来提升性能。Google 提供了指导和工具来支持这些调整过程。
结论
MedGemma 代表着在提供医疗 AI 开发可访问的开源工具方面迈出了重要一步。通过将多模态功能与可扩展性和适应性相结合,它为旨在构建集成医学图像和文本分析的应用程序的开发人员提供了宝贵的资源。
文档地址:https://developers.google.com/health-ai-developer-foundations/medgemma
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。