职贝云数AI新零售门户

标题: AI大模型到底在“吃”什么数据?——医疗AI训练数据需求的全景拆解 [打印本页]

作者: TKxT 时间: 7 天前
标题: AI大模型到底在“吃”什么数据?——医疗AI训练数据需求的全景拆解
一、胃口有多大？——从千亿Token到万亿数据点

先用几个数字建立一个直观感受——

2026年一季度，全国日均Token调用量已打破140万亿，较2024年终增长了超过1000倍。国家数据局局长刘烈宏在2026年全国数据工作会议上宣布：全国已建成高质量数据集超过11.6万个，总体量超过960PB。但“AI就绪”（AI-Ready）的数据比例，远低于这个数字。

落实到医疗范畴，AI大模型的数据需求正在阅历一场“质变到质变”的跃迁。看看几个头部项目的训练数据耗费：

微软医疗时序基座模型MIRA——在一个义务上就耗费了4540亿个医疗数据点停止预训练，专注ICU生命体征的不规则采样和缺失值成绩。协和医院超声AI大模型——从5亿张原始超声影像中，经过质量挑选和标注后，精选出2.45亿张高质量图像用于训练，覆盖40多种设备型号、250多个数据集。北京大学第三医院“羲和一号”诊疗大模型——百万级真实病案+亿级中英临床文献数据，覆盖140多个科室。北医三院与北京邮电大学结合开发的MedFound诊断模型——参数规模1760亿。

阿里健康、百度灵医智惠、讯飞医疗、医渡科技、联影智能——头部的医疗AI企业，每一家都在以“PB级”为单位构建本人的训练数据池。这不是“当前会需求”——这是“曾经在耗费”。

但成绩恰恰出在这里：模型的胃口在以指数级增长，而高质量医疗数据的供给，依然以线性速度爬坡。

参考来源：国家数据局 nda.gov.cn 2026年全国数据工作会议；量子位 qbitai.com 2026年1月《微软发布医疗时序基座模型》；湖北省数据局 sjj.hubei.gov.cn 2026年6月1日《超声影像炼成AI大模型》

—— · ——

二、吃什么？——医疗大模型数据需求的四层“食谱”拆解

笼统地说“医疗数据”四个字没有意义。AI大模型对医疗数据的需求是高度结构化的，可以拆成四个层次——

第一层：预训练基础语料——“把医学言语学会”

大模型在成为“医生”之前，首先要成为“医学专业读者”。这一层需求的是大规模、多来源、高质量的医学文本数据：医学教科书的系统性知识框架、临床指南和专家共识的标准化诊疗途径、千万级医学文献的学术前沿知识、药品阐明书和器械注册材料的合规信息、真实电子病历的临床言语分布。

苏州健康医疗数智实验室的数据池从700亿条增长到1300亿条以上，核心就是这一层的持续积累。这一层的特点是：量大面广，但相对标准化，获取门槛较低。目前国内头部的医疗大模型在这一层上的数据储备差距不大。

第二层：专科知识精调数据——“把泛医先生变成专科医生”

通用医疗大模型就像一个轮转实习生——什么科都见过，什么病都不精。专科精调需求的是高度结构化、专家标注过的专病数据集。根据湖北省健康医疗大数据产业联盟2026年5月发布的首批供需清单，目前市场上最紧缺的精调数据集中在三大方向——

肿瘤方向：肺癌、食管癌、胃癌、结直肠癌、肝癌、乳腺癌、宫颈癌、脑胶质瘤、血液肿瘤（CAR-T）的多模态专病数据集——包含影像、病理、基因检测、用药记录和随访结局。心血管方向：急性心梗、冠心病、心衰、房颤的急诊-住院-康复全链条数据。神经方向：脑卒中、癫痫、神经退行性疾病的纵向随访数据。

这一层的数据需求有一个结构性矛盾：医院有原始数据但缺乏标注才能，AI公司有标注需求但拿不到原始数据。2026年5月9日，湖北省率先成立了健康医疗大数据产业联盟，由同济医院、协和医院、中南医院等头部医院结合华大基因、联影、兰丁智能等企业，初次发布了46项数据供需清单——试图在供需之间架一座桥。

第三层：多模态对齐数据——“让模型看得见、听得懂、读得明白”

这是2026年医疗AI竞争最激烈的前沿。多模态对齐数据要求：同一患者的影像（CT/MRI/超声/病理切片）、检验报告（结构化数值）、病历文本（非结构化描画）、基因组数据（高通量测序结果）——四种异构数据完成时空对齐和语义关联。换句话说，模型不只要“看懂”每一张CT片，还要把片子上的发现和同一工夫的化验单、病历里医生的描画、以及基因检测报告关联起来，像人类医生一样做综合判别。

北京大学健康医疗大数据国家研讨院洪申达团队2026年2月在Nature旗下Scientific Data发布了MEETI——首个大规模心电多模态数据集，整合了80万份12导联ECG记录，完成了“信号→图像→特征→文本”四种模态的对齐。这是目前国内最接近“全模态对齐”标准的公开数据集。但像这样的数据集，全国不超过10个。

这一层数据的需求正在迸发——由于基础的言语模型才能曾经趋于同质化，下一个差异化壁垒就是多模态了解。而多模态对齐数据的消费成本极高：一组肺癌患者的多模态对齐数据（薄层CT+病理切片+基因检测+NGS报告+3年随访），从采集到标注完成，需求放射科、病文科、肿瘤科三个科室的医生协作，单例成本在2000-5000元之间。

第四层：反馈与对齐数据——“让模型知道什么是对的”

这是最容易被忽略、但最决议模型临床可用性的一层。大模型在医学上的“幻觉”——编造不存在的药物、虚拟检查结果、逻辑腾跃的诊断——根源不在于数据不够大，而在于短少“人类偏好反馈”数据。详细而言，大模型需求：临床医生对模型输入的诊断建议停止“对/错/部分对”的标注（RLHF——基于人类反馈的强化学习）；不同年资医生对同一病例的判别差异数据（让模型学会区分“标准答案”和“有争议的判别”）；真实临床环境中模型建议被采纳/被回绝的记录（让模型了解“实际最优”和“临床可行”之间的差距）。

瑞士洛桑大学医院（CHUV）的MOOVE-CHUV项目给出了一个示范：241名来自22个专科的临床医师参与，创建了3700多个临床案例，搜集了12500多次专家评价。结果发现，经过人类反馈对齐的模型，临床建议的被采纳率比纯数据训练的模型高出40%以上。但在国内，这一层数据的系统性采集几乎空白。

参考来源：湖北省数据局 sjj.hubei.gov.cn 2026年5月9日；Nature Scientific Data 2026年2月 MEETI数据集；CHUV chuv.ch MOOVE-CHUV项目；北京大学健康医疗大数据国家研讨院

—— · ——

三、“数据污染”——一个新发现的灰犀牛

在讨论“需求多多数据”的同时，必须面对一个2026年刚刚被迷信界确认的新成绩——

2026年3月，哈佛大学、斯坦福大学和谷歌结合发布了一项令人不安的研讨：当AI生成的临床文本被用于训练新一代模型时，稀有病理信息会在迭代中逐代消逝。详细而言，研讨团队用80万条真实临床记录训练了第一代模型，然后用这个模型生成了“合成病历”来训练第二代——反复几代之后发现，模型中关于稀有病、非典型症状、边缘病例的知识在每一代迭代中持续衰减，到第五代时，某些稀有病理的辨认准确率下降了超过60%。

这意味着什么？假如医院将来大量运用AI辅助书写电子病历——这在2026年曾经在加速推行——这些AI生成的病历文本假如又被用于训练下一代医疗大模型，模型就会在“数据远亲繁衍”中持续退步。这种现象被研讨者称为“模型崩溃”（Model Collapse）。

这对医疗数据供给提出了一个更高维度上的要求：不只要保证数据“多”和“好”，还要保证数据“真”——必须是人写的、人标注的、人验证的。AI可以辅助，但不能替代人类专家进入数据消费线。这无疑将推高高质量医疗数据的消费成本，但也是保障模型安全性的底线。

参考来源：36氪 36kr.com 2026年3月《80万条数据揭示隐患：AI正在"污染"病历》

—— · ——

四、政策在做什么？——“模数共振”与高质量数据集国家战略

了解了大模型“吃什么”之后，再看国家政策——会发现政策的靶向非常精准。

2026年4月24日，工业和信息化部与国家数据局结合发布了《关于结合实施2026年“模数共振”举动的告诉》（工信厅联科函〔2026〕193号）。文件不长，但信息量极大。它划定了20个重点行业——医疗装备、医药、生物制造全部在列。针对每个行业，提出了一套详细的量化目的：

提炼不少于5个行业通识高质量数据集。

研发不少于1个掌握行业技术机理的行业模型。

凝练不少于30个高价值运用场景。

每个场景构建不少于1个专识数据集、打造不少于1个公用模型或智能体。

每个省级地区打造不少于3个“模数共振空间”——本质上就是跨主体的数据协同训练平台，有条件的地方要逐渐晋级为“智能体工厂”。

与此同时，2026年4月15日，国家数据局发布了《关于推停止业高质量数据集建设举动的实施方案（征求意见稿）》，部署六大专项举动。其中“强基扩容”举动明白将医疗卫生列为重点范畴，“标注攻坚”举动提出梯次规划数据标注创新实验区——医疗影像是专业标注难度最高的品类之一。

6月5日——也就是昨天——国家数据集管理服务系统正式上线试运转。这是全国首个国家级的数据集登记、管理和服务一致平台。至此，高质量数据集的基础设备——“有平台、有标准、有举动、有考核”——曾经基本搭建完成。

还有一个容易被忽略但极其重要的信号：国家医保局2026年工作部署中，明白提出建立“两类核心数据集”——多模态分病种标准数据集（整合影像、基因、临床诊疗数据），以及高质量多病种单模态标准数据集（检验报告、用药记录等单一类型数据跨机构标准化）。医保局下场做数据集，意义非同寻常——医保掌握的是全国最大体量的真实诊疗数据，且数据标准化程度远高于医院自有系统。

这些政策组合意味着两件事：第一，医疗AI训练数据的供给端正在被从国家层面“系统性地打开”；第二，医疗数据不再是医院“本人要不要做”的成绩——模数共振举动的量化目的和考核节点（8月中期评价、11月成效总结），会把压力传导到每一个省级地区和央企。

参考来源：工业和信息化部办公厅国家数据局综合司工信厅联科函〔2026〕193号 2026年4月24日；国家数据局 nda.gov.cn 2026年4月15日《六大专项举动实施方案》；国家数据局 nda.gov.cn 2026年6月5日；国家医保局 2026年工作部署

—— · ——

五、供需断层在哪里？——三个结构性缺口

政策方向明晰，目的量化，但落地面临三个结构性缺口——

缺口一：数据拥有方和数据运用方之间“没有言语”

医院信息化系统（HIS/EMR/LIS/PACS）产生的数据格式与AI训练所需的数据格式之间存在根本性的“技术方言”差异。一份电子病历在HIS里是半结构化文本+嵌套模板，而大模型需求的是经过实体辨认、关系抽取、术语标准化的结构化标注语料。这中间的加工链路——数据清洗→术语归一化→实体对齐→结构标注→质量核验——目前绝大部分医院没有才能独立完成。

湖北省联盟成立时公布了一个典型的数据：首批46项需求中，频率最高的不是“我没有数据”，而是“我有数据但格式不对”。同济医院放射科的技术担任人表示，一套胸部CT的DICOM原片，要变成大模型可直接训练的格式，中间至少需求6道工序。

缺口二：标注产能严重不足

目前全国医疗数据标注的主力军是两类人：放射科、病文科的临床医生（应用专业工夫做标注），以及第三方标注公司的通用标注员（不具有医学背景）。前者产能极低——一个放射科主任一天能标注的CT片不超过50张；后者质量堪忧——没有医学知识的标注员面对“磨玻璃结节”和“实性结节”的区别完全无能为力。

国家数据局提出的“梯次规划数据标注创新实验区”，本质上就是在处理这个标注产能成绩。武汉、长沙、成都等城市已率先申报医疗数据标注产业基地，方案中包含“产教交融”——让医学院校的先生在校时期参与标注实训，既处理失业又处理产能。但这个形式仍处于起步阶段。

缺口三：合规成本把大部分数据锁在“灰区”

2026年2月五部委结合印发的《医疗卫活力构数据安全和个人信息保护管理办法（试行）》，建立了核心数据、重要数据、普通数据三级分类保护制度，设定了“十项制止”和“八项制止”红线。这对数据安全是必要的——但合规门槛的分明提高，客观上让更多医院选择了最安全的策略：“不出数据”。

匿名化国标尚未出台，去标识化的法律效能不明白——医院在没有明晰的合规安全边界时，宁可让数据躺在机房里，也不情愿承担“合规瑕疵”的风险。江苏省卫健委2026年5月29日在苏州举行的高质量数据集建设沙龙上，多个医院代表表达了同一种心情：“合规不是成绩，合规的不确定性才是成绩”。

这三个缺口叠加在一同，导致了一个结果：模型在等数据，数据在等标注，标注在等合规，合规在等国标。每一个环节都在等上一个环节先动。

参考来源：湖北省数据局 sjj.hubei.gov.cn；五部委《医疗卫活力构数据安全和个人信息保护管理办法（试行）》国卫规划发〔2026〕6号；江苏省卫健委 2026年5月29日苏州沙龙

—— · ——

六、谁在破局？——2026年三个值得关注的样本

在结构性缺口面前，已有先行者跑出了部分解法——

样本一：协和超声AI——“以量换质”到“以质保质”的范式

协和医院超声AI大模型的做法值得拆解：不追求原始数据的有限堆积，而是建立了一套极致的数据挑选和标注标准。从5亿张影像中精选2.45亿张，淘汰率超过50%。挑选标准不是简单的“明晰度”，而是一套包含设备型号、扫查切面、患者体位、医师年资的多维质量评分体系。标注人员必须具有5年以上超声诊断阅历，每人标注的影像都需求双盲互审。

结果是：基于这2.45亿张精选数据训练的模型，在70种超声诊断义务上准确率超过95%，基层医生运用后的诊断效率分明提升。湖北数据局评价其“炼成AI大模型”——“炼”这个字很准：数据不是采来的，是炼出来的。

样本二：湖北省健康医疗大数据产业联盟——“供需对接”的机制创新

2026年5月9日，由武汉大学中南医院牵头，结合同济、协和等头部医院，以及华大基因、联影、兰丁智能等企业，在光谷成立了全国首个省级健康医疗大数据产业联盟。联盟的首批产出是46项数据供需清单——供给端罗列了湖北省内医院已具有的专病数据集（肺癌、食管癌、胃癌、结直肠癌、肝癌、乳腺癌、宫颈癌、脑胶质瘤等），需求端明白了AI企业和药企对数据的详细要求（格式标准、标注深度、覆盖范围、运用场景）。

这个形式的核心创新不是技术，而是机制：第一次有人把“我有数据”和“我要数据”放在同一张桌子上对账。以前医疗数据的供需婚配靠的是“关系”——你看法哪个医院的主任就找哪个。联盟形式试图把这种“人品经济”晋级为“清单经济”。

样本三：苏州“三区管理”——合规与技术的一体化解法

苏州在推进“三医”协同创新可信数据空间时，探求出一套“红区/蓝区/绿区”分区管理机制：红区存放原始数据，物理隔离，不出医院局域网；蓝区存放脱敏后数据，可供合作方在可信数据空间内停止模型训练和数据分析；绿区存放经过匿名化处理的仿真数据，可对外流通买卖。

这套三区架构的价值在于：它同时处理了合规成绩（原始数据不出域）和效率成绩（脱敏后的数据可在空间内自在运用）。广州卫生健康可信数据空间走了相似的技术途径——近50家医院入驻、开发22个数据产品和39个专病数据集——但其“场景授权+数字合约”双控机制更进了一步，把单次授权周期从2个月紧缩到了15个工作日。

苏州和广州的实际表明，“合规”和“流通”不是对立关系——技术途径选对了，两者可以正向循环。

参考来源：湖北省数据局 sjj.hubei.gov.cn 2026年6月1日；湖北省数据局 2026年5月9日《湖北省健康医疗大数据产业联盟成立》；江苏省卫健委 2026年5月29日苏州沙龙；广州市卫健委

—— · ——

七、一个前瞻判别：医疗数据市场的“三层分化”

站在2026年6月这个工夫节点，可以做一个有政策根据和市场信号支撑的前瞻判别——将来3到5年，医疗数据市场将会出现“三层分化”：

下层：“国家级基础语料池”——由国家医保局、国家健康医疗大数据中心（北方/北方）牵头建设，汇聚全国范围的脱敏诊疗数据、医保结算数据、公共卫生数据。这一层的数据覆盖面广、标准化程度高、合规基础扎实，将成为全国医疗大模型预训练的基础“粮食”。这一层不以盈利为目的，属于公共数据基础设备。可以参照的进度锚点是：国家数据集管理服务系统已于2026年6月5日上线试运转。

中层：“省级/联盟级专病精调池”——由省级数据集团（如湖北数据集团）、医院联盟（如湖北联盟）、头部数商结合建设。这一层聚焦特定病种、特定场景的精调数据——肺癌多模态数据集、心血管急危重症评价数据集、脑胶质瘤影像-基因结合数据集等。这一层是商业化的主战场——按Token计价、按场景授权、按质量分层定价。各省“模数共振空间”的建设和竞争，次要在这一层展开。

下层：“医院自有数据资产池”——每家三甲医院基于本身学科优势（如协和的超声、同仁的眼科、阜外的心血管），将核心数据资产化——完成确权登记、质量测评、成本归集，然后经过数据买卖所挂牌或与AI企业一对一合作。这一层的竞争，核心不是数据量的大小，而是数据的“不可替代性”——你的数据资产是不是别人没有的、模型少不了的。

这个三层结构一旦成型，数商的机会分布会变得非常明晰：下层做“数据资产化服务”——帮医院做数据清点、确权、质量测评、挂牌买卖，赚的是服务费。中层做“数据产品化服务”——把多家医院的同类数据聚合成标准化专病数据集，加上标注和质量背书，卖给AI公司，赚的是产品溢价。下层做“数据基础设备服务”——参与国家/省级数据平台的建设和运维，赚的是基础设备运营支出。

最值得下注的是中层。缘由很简单：下层是央企和国家级平台的领地，进入门槛极高；下层是“一单一议”的项目制生意，难以规模化。只要中层——把分散在医院里的同类型数据聚合成标准化的、可反复买卖的专病数据集——兼具规模化潜力和商业溢价空间，而且“模数共振”举动明白鼓励“第三方中立机构”作为运营主体参与。

—— · ——

八、结论

回到标题的核心成绩：AI大模型到底在“吃”什么数据？

它吃的不只是“多”，更不是随意什么数据都能喂。医疗大模型的数据需求是一个四层金字塔：基础语料（够大就行）→专科精调数据（够专才行）→多模态对齐数据（够全才行）→人类反馈对齐数据（够真才行）。越往上，消费难度越高，供给越稀缺，商业价值也越大。

2026年，国家数据局和工信部用“模数共振”举动和高质量数据集六大专项举动，把制度框架和基础设备搭好了。国家医保局用“两类核心数据集”计划，把国家层面最大的数据源摆上了桌。湖北联盟、苏州可信数据空间、协和超声AI等在各自的方向上跑通了部分的破局途径。

但三个结构性的供需缺口——数据格式不通、标注产能不足、合规边界不清——仍将在将来2–3年内制约供给侧的释放速度。这也是数商的机会窗口：谁能帮医院把原始数据变成AI-Ready数据，谁就占据了医疗数据产业链受骗前最稀缺的生态位。

有一个来自哈佛和斯坦福的正告值得一切人记住：假如医疗AI的数据来源被AI本人生成的文本污染，模型会在迭代中退步——“数据远亲繁衍”的后果比数据不足更严重。这给了人类一个不可替代的角色：高质量医疗数据的消费和验证，最终必须由具有医学专业才能的人来完成。AI可以是工具，但不能是作者。

—— · ——

本文信息来源：国家数据局官网（nda.gov.cn）、工业和信息化部（miit.gov.cn）、国家医保局、湖北省数据局（sjj.hubei.gov.cn）、江苏省卫健委、广州市卫健委、量子位（qbitai.com）、36氪（36kr.com）、Nature Scientific Data（nature.com）、CHUV（chuv.ch）等威望渠道。截至2026年6月6日。

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)