职贝云数AI新零售门户

标题: AI大模型到底在“吃”什么数据?——医疗AI训练数据需求的全景拆解 [打印本页]

作者: TKxT    时间: 7 天前
标题: AI大模型到底在“吃”什么数据?——医疗AI训练数据需求的全景拆解
一、胃口有多大?——从千亿Token到万亿数据点

先用几个数字建立一个直观感受——

2026年一季度,全国日均Token调用量已打破140万亿,较2024年终增长了超过1000倍。国家数据局局长刘烈宏在2026年全国数据工作会议上宣布:全国已建成高质量数据集超过11.6万个,总体量超过960PB。但“AI就绪”(AI-Ready)的数据比例,远低于这个数字。

落实到医疗范畴,AI大模型的数据需求正在阅历一场“质变到质变”的跃迁。看看几个头部项目的训练数据耗费:

微软医疗时序基座模型MIRA——在一个义务上就耗费了4540亿个医疗数据点停止预训练,专注ICU生命体征的不规则采样和缺失值成绩。协和医院超声AI大模型——从5亿张原始超声影像中,经过质量挑选和标注后,精选出2.45亿张高质量图像用于训练,覆盖40多种设备型号、250多个数据集。北京大学第三医院“羲和一号”诊疗大模型——百万级真实病案+亿级中英临床文献数据,覆盖140多个科室。北医三院与北京邮电大学结合开发的MedFound诊断模型——参数规模1760亿。

阿里健康、百度灵医智惠、讯飞医疗、医渡科技、联影智能——头部的医疗AI企业,每一家都在以“PB级”为单位构建本人的训练数据池。这不是“当前会需求”——这是“曾经在耗费”。

但成绩恰恰出在这里:模型的胃口在以指数级增长,而高质量医疗数据的供给,依然以线性速度爬坡。

参考来源:国家数据局 nda.gov.cn 2026年全国数据工作会议;量子位 qbitai.com 2026年1月《微软发布医疗时序基座模型》;湖北省数据局 sjj.hubei.gov.cn 2026年6月1日《超声影像炼成AI大模型》

—— · ——

二、吃什么?——医疗大模型数据需求的四层“食谱”拆解

笼统地说“医疗数据”四个字没有意义。AI大模型对医疗数据的需求是高度结构化的,可以拆成四个层次——

第一层:预训练基础语料——“把医学言语学会”

大模型在成为“医生”之前,首先要成为“医学专业读者”。这一层需求的是大规模、多来源、高质量的医学文本数据:医学教科书的系统性知识框架、临床指南和专家共识的标准化诊疗途径、千万级医学文献的学术前沿知识、药品阐明书和器械注册材料的合规信息、真实电子病历的临床言语分布。

苏州健康医疗数智实验室的数据池从700亿条增长到1300亿条以上,核心就是这一层的持续积累。这一层的特点是:量大面广,但相对标准化,获取门槛较低。目前国内头部的医疗大模型在这一层上的数据储备差距不大。

第二层:专科知识精调数据——“把泛医先生变成专科医生”

通用医疗大模型就像一个轮转实习生——什么科都见过,什么病都不精。专科精调需求的是高度结构化、专家标注过的专病数据集。根据湖北省健康医疗大数据产业联盟2026年5月发布的首批供需清单,目前市场上最紧缺的精调数据集中在三大方向——

肿瘤方向:肺癌、食管癌、胃癌、结直肠癌、肝癌、乳腺癌、宫颈癌、脑胶质瘤、血液肿瘤(CAR-T)的多模态专病数据集——包含影像、病理、基因检测、用药记录和随访结局。心血管方向:急性心梗、冠心病、心衰、房颤的急诊-住院-康复全链条数据。神经方向:脑卒中、癫痫、神经退行性疾病的纵向随访数据。

这一层的数据需求有一个结构性矛盾:医院有原始数据但缺乏标注才能,AI公司有标注需求但拿不到原始数据。2026年5月9日,湖北省率先成立了健康医疗大数据产业联盟,由同济医院、协和医院、中南医院等头部医院结合华大基因、联影、兰丁智能等企业,初次发布了46项数据供需清单——试图在供需之间架一座桥。

第三层:多模态对齐数据——“让模型看得见、听得懂、读得明白”

这是2026年医疗AI竞争最激烈的前沿。多模态对齐数据要求:同一患者的影像(CT/MRI/超声/病理切片)、检验报告(结构化数值)、病历文本(非结构化描画)、基因组数据(高通量测序结果)——四种异构数据完成时空对齐和语义关联。换句话说,模型不只要“看懂”每一张CT片,还要把片子上的发现和同一工夫的化验单、病历里医生的描画、以及基因检测报告关联起来,像人类医生一样做综合判别。

北京大学健康医疗大数据国家研讨院洪申达团队2026年2月在Nature旗下Scientific Data发布了MEETI——首个大规模心电多模态数据集,整合了80万份12导联ECG记录,完成了“信号→图像→特征→文本”四种模态的对齐。这是目前国内最接近“全模态对齐”标准的公开数据集。但像这样的数据集,全国不超过10个。

这一层数据的需求正在迸发——由于基础的言语模型才能曾经趋于同质化,下一个差异化壁垒就是多模态了解。而多模态对齐数据的消费成本极高:一组肺癌患者的多模态对齐数据(薄层CT+病理切片+基因检测+NGS报告+3年随访),从采集到标注完成,需求放射科、病文科、肿瘤科三个科室的医生协作,单例成本在2000-5000元之间。

第四层:反馈与对齐数据——“让模型知道什么是对的”

这是最容易被忽略、但最决议模型临床可用性的一层。大模型在医学上的“幻觉”——编造不存在的药物、虚拟检查结果、逻辑腾跃的诊断——根源不在于数据不够大,而在于短少“人类偏好反馈”数据。详细而言,大模型需求:临床医生对模型输入的诊断建议停止“对/错/部分对”的标注(RLHF——基于人类反馈的强化学习);不同年资医生对同一病例的判别差异数据(让模型学会区分“标准答案”和“有争议的判别”);真实临床环境中模型建议被采纳/被回绝的记录(让模型了解“实际最优”和“临床可行”之间的差距)。

瑞士洛桑大学医院(CHUV)的MOOVE-CHUV项目给出了一个示范:241名来自22个专科的临床医师参与,创建了3700多个临床案例,搜集了12500多次专家评价。结果发现,经过人类反馈对齐的模型,临床建议的被采纳率比纯数据训练的模型高出40%以上。但在国内,这一层数据的系统性采集几乎空白。

参考来源:湖北省数据局 sjj.hubei.gov.cn 2026年5月9日;Nature Scientific Data 2026年2月 MEETI数据集;CHUV chuv.ch MOOVE-CHUV项目;北京大学健康医疗大数据国家研讨院

—— · ——

三、“数据污染”——一个新发现的灰犀牛

在讨论“需求多多数据”的同时,必须面对一个2026年刚刚被迷信界确认的新成绩——

2026年3月,哈佛大学、斯坦福大学和谷歌结合发布了一项令人不安的研讨:当AI生成的临床文本被用于训练新一代模型时,稀有病理信息会在迭代中逐代消逝。详细而言,研讨团队用80万条真实临床记录训练了第一代模型,然后用这个模型生成了“合成病历”来训练第二代——反复几代之后发现,模型中关于稀有病、非典型症状、边缘病例的知识在每一代迭代中持续衰减,到第五代时,某些稀有病理的辨认准确率下降了超过60%。

这意味着什么?假如医院将来大量运用AI辅助书写电子病历——这在2026年曾经在加速推行——这些AI生成的病历文本假如又被用于训练下一代医疗大模型,模型就会在“数据远亲繁衍”中持续退步。这种现象被研讨者称为“模型崩溃”(Model Collapse)。

这对医疗数据供给提出了一个更高维度上的要求:不只要保证数据“多”和“好”,还要保证数据“真”——必须是人写的、人标注的、人验证的。AI可以辅助,但不能替代人类专家进入数据消费线。这无疑将推高高质量医疗数据的消费成本,但也是保障模型安全性的底线。

参考来源:36氪 36kr.com 2026年3月《80万条数据揭示隐患:AI正在"污染"病历》

—— · ——

四、政策在做什么?——“模数共振”与高质量数据集国家战略

了解了大模型“吃什么”之后,再看国家政策——会发现政策的靶向非常精准。

2026年4月24日,工业和信息化部与国家数据局结合发布了《关于结合实施2026年“模数共振”举动的告诉》(工信厅联科函〔2026〕193号)。文件不长,但信息量极大。它划定了20个重点行业——医疗装备、医药、生物制造全部在列。针对每个行业,提出了一套详细的量化目的:

提炼不少于5个行业通识高质量数据集。

研发不少于1个掌握行业技术机理的行业模型。

凝练不少于30个高价值运用场景。

每个场景构建不少于1个专识数据集、打造不少于1个公用模型或智能体。

每个省级地区打造不少于3个“模数共振空间”——本质上就是跨主体的数据协同训练平台,有条件的地方要逐渐晋级为“智能体工厂”。

与此同时,2026年4月15日,国家数据局发布了《关于推停止业高质量数据集建设举动的实施方案(征求意见稿)》,部署六大专项举动。其中“强基扩容”举动明白将医疗卫生列为重点范畴,“标注攻坚”举动提出梯次规划数据标注创新实验区——医疗影像是专业标注难度最高的品类之一。

6月5日——也就是昨天——国家数据集管理服务系统正式上线试运转。这是全国首个国家级的数据集登记、管理和服务一致平台。至此,高质量数据集的基础设备——“有平台、有标准、有举动、有考核”——曾经基本搭建完成。

还有一个容易被忽略但极其重要的信号:国家医保局2026年工作部署中,明白提出建立“两类核心数据集”——多模态分病种标准数据集(整合影像、基因、临床诊疗数据),以及高质量多病种单模态标准数据集(检验报告、用药记录等单一类型数据跨机构标准化)。医保局下场做数据集,意义非同寻常——医保掌握的是全国最大体量的真实诊疗数据,且数据标准化程度远高于医院自有系统。

这些政策组合意味着两件事:第一,医疗AI训练数据的供给端正在被从国家层面“系统性地打开”;第二,医疗数据不再是医院“本人要不要做”的成绩——模数共振举动的量化目的和考核节点(8月中期评价、11月成效总结),会把压力传导到每一个省级地区和央企。

参考来源:工业和信息化部办公厅 国家数据局综合司 工信厅联科函〔2026〕193号 2026年4月24日;国家数据局 nda.gov.cn 2026年4月15日《六大专项举动实施方案》;国家数据局 nda.gov.cn 2026年6月5日;国家医保局 2026年工作部署

—— · ——

五、供需断层在哪里?——三个结构性缺口

政策方向明晰,目的量化,但落地面临三个结构性缺口——

缺口一:数据拥有方和数据运用方之间“没有言语”

医院信息化系统(HIS/EMR/LIS/PACS)产生的数据格式与AI训练所需的数据格式之间存在根本性的“技术方言”差异。一份电子病历在HIS里是半结构化文本+嵌套模板,而大模型需求的是经过实体辨认、关系抽取、术语标准化的结构化标注语料。这中间的加工链路——数据清洗→术语归一化→实体对齐→结构标注→质量核验——目前绝大部分医院没有才能独立完成。

湖北省联盟成立时公布了一个典型的数据:首批46项需求中,频率最高的不是“我没有数据”,而是“我有数据但格式不对”。同济医院放射科的技术担任人表示,一套胸部CT的DICOM原片,要变成大模型可直接训练的格式,中间至少需求6道工序。

缺口二:标注产能严重不足

目前全国医疗数据标注的主力军是两类人:放射科、病文科的临床医生(应用专业工夫做标注),以及第三方标注公司的通用标注员(不具有医学背景)。前者产能极低——一个放射科主任一天能标注的CT片不超过50张;后者质量堪忧——没有医学知识的标注员面对“磨玻璃结节”和“实性结节”的区别完全无能为力。

国家数据局提出的“梯次规划数据标注创新实验区”,本质上就是在处理这个标注产能成绩。武汉、长沙、成都等城市已率先申报医疗数据标注产业基地,方案中包含“产教交融”——让医学院校的先生在校时期参与标注实训,既处理失业又处理产能。但这个形式仍处于起步阶段。

缺口三:合规成本把大部分数据锁在“灰区”

2026年2月五部委结合印发的《医疗卫活力构数据安全和个人信息保护管理办法(试行)》,建立了核心数据、重要数据、普通数据三级分类保护制度,设定了“十项制止”和“八项制止”红线。这对数据安全是必要的——但合规门槛的分明提高,客观上让更多医院选择了最安全的策略:“不出数据”。

匿名化国标尚未出台,去标识化的法律效能不明白——医院在没有明晰的合规安全边界时,宁可让数据躺在机房里,也不情愿承担“合规瑕疵”的风险。江苏省卫健委2026年5月29日在苏州举行的高质量数据集建设沙龙上,多个医院代表表达了同一种心情:“合规不是成绩,合规的不确定性才是成绩”。

这三个缺口叠加在一同,导致了一个结果:模型在等数据,数据在等标注,标注在等合规,合规在等国标。每一个环节都在等上一个环节先动。

参考来源:湖北省数据局 sjj.hubei.gov.cn;五部委《医疗卫活力构数据安全和个人信息保护管理办法(试行)》国卫规划发〔2026〕6号;江苏省卫健委 2026年5月29日苏州沙龙

—— · ——

六、谁在破局?——2026年三个值得关注的样本

在结构性缺口面前,已有先行者跑出了部分解法——

样本一:协和超声AI——“以量换质”到“以质保质”的范式

协和医院超声AI大模型的做法值得拆解:不追求原始数据的有限堆积,而是建立了一套极致的数据挑选和标注标准。从5亿张影像中精选2.45亿张,淘汰率超过50%。挑选标准不是简单的“明晰度”,而是一套包含设备型号、扫查切面、患者体位、医师年资的多维质量评分体系。标注人员必须具有5年以上超声诊断阅历,每人标注的影像都需求双盲互审。

结果是:基于这2.45亿张精选数据训练的模型,在70种超声诊断义务上准确率超过95%,基层医生运用后的诊断效率分明提升。湖北数据局评价其“炼成AI大模型”——“炼”这个字很准:数据不是采来的,是炼出来的。

样本二:湖北省健康医疗大数据产业联盟——“供需对接”的机制创新

2026年5月9日,由武汉大学中南医院牵头,结合同济、协和等头部医院,以及华大基因、联影、兰丁智能等企业,在光谷成立了全国首个省级健康医疗大数据产业联盟。联盟的首批产出是46项数据供需清单——供给端罗列了湖北省内医院已具有的专病数据集(肺癌、食管癌、胃癌、结直肠癌、肝癌、乳腺癌、宫颈癌、脑胶质瘤等),需求端明白了AI企业和药企对数据的详细要求(格式标准、标注深度、覆盖范围、运用场景)。

这个形式的核心创新不是技术,而是机制:第一次有人把“我有数据”和“我要数据”放在同一张桌子上对账。以前医疗数据的供需婚配靠的是“关系”——你看法哪个医院的主任就找哪个。联盟形式试图把这种“人品经济”晋级为“清单经济”。

样本三:苏州“三区管理”——合规与技术的一体化解法

苏州在推进“三医”协同创新可信数据空间时,探求出一套“红区/蓝区/绿区”分区管理机制:红区存放原始数据,物理隔离,不出医院局域网;蓝区存放脱敏后数据,可供合作方在可信数据空间内停止模型训练和数据分析;绿区存放经过匿名化处理的仿真数据,可对外流通买卖。

这套三区架构的价值在于:它同时处理了合规成绩(原始数据不出域)和效率成绩(脱敏后的数据可在空间内自在运用)。广州卫生健康可信数据空间走了相似的技术途径——近50家医院入驻、开发22个数据产品和39个专病数据集——但其“场景授权+数字合约”双控机制更进了一步,把单次授权周期从2个月紧缩到了15个工作日。

苏州和广州的实际表明,“合规”和“流通”不是对立关系——技术途径选对了,两者可以正向循环。

参考来源:湖北省数据局 sjj.hubei.gov.cn 2026年6月1日;湖北省数据局 2026年5月9日《湖北省健康医疗大数据产业联盟成立》;江苏省卫健委 2026年5月29日苏州沙龙;广州市卫健委

—— · ——

七、一个前瞻判别:医疗数据市场的“三层分化”

站在2026年6月这个工夫节点,可以做一个有政策根据和市场信号支撑的前瞻判别——将来3到5年,医疗数据市场将会出现“三层分化”:

下层:“国家级基础语料池”——由国家医保局、国家健康医疗大数据中心(北方/北方)牵头建设,汇聚全国范围的脱敏诊疗数据、医保结算数据、公共卫生数据。这一层的数据覆盖面广、标准化程度高、合规基础扎实,将成为全国医疗大模型预训练的基础“粮食”。这一层不以盈利为目的,属于公共数据基础设备。可以参照的进度锚点是:国家数据集管理服务系统已于2026年6月5日上线试运转。

中层:“省级/联盟级专病精调池”——由省级数据集团(如湖北数据集团)、医院联盟(如湖北联盟)、头部数商结合建设。这一层聚焦特定病种、特定场景的精调数据——肺癌多模态数据集、心血管急危重症评价数据集、脑胶质瘤影像-基因结合数据集等。这一层是商业化的主战场——按Token计价、按场景授权、按质量分层定价。各省“模数共振空间”的建设和竞争,次要在这一层展开。

下层:“医院自有数据资产池”——每家三甲医院基于本身学科优势(如协和的超声、同仁的眼科、阜外的心血管),将核心数据资产化——完成确权登记、质量测评、成本归集,然后经过数据买卖所挂牌或与AI企业一对一合作。这一层的竞争,核心不是数据量的大小,而是数据的“不可替代性”——你的数据资产是不是别人没有的、模型少不了的。

这个三层结构一旦成型,数商的机会分布会变得非常明晰:下层做“数据资产化服务”——帮医院做数据清点、确权、质量测评、挂牌买卖,赚的是服务费。中层做“数据产品化服务”——把多家医院的同类数据聚合成标准化专病数据集,加上标注和质量背书,卖给AI公司,赚的是产品溢价。下层做“数据基础设备服务”——参与国家/省级数据平台的建设和运维,赚的是基础设备运营支出。

最值得下注的是中层。缘由很简单:下层是央企和国家级平台的领地,进入门槛极高;下层是“一单一议”的项目制生意,难以规模化。只要中层——把分散在医院里的同类型数据聚合成标准化的、可反复买卖的专病数据集——兼具规模化潜力和商业溢价空间,而且“模数共振”举动明白鼓励“第三方中立机构”作为运营主体参与。

—— · ——

八、结论

回到标题的核心成绩:AI大模型到底在“吃”什么数据?

它吃的不只是“多”,更不是随意什么数据都能喂。医疗大模型的数据需求是一个四层金字塔:基础语料(够大就行)→专科精调数据(够专才行)→多模态对齐数据(够全才行)→人类反馈对齐数据(够真才行)。越往上,消费难度越高,供给越稀缺,商业价值也越大。

2026年,国家数据局和工信部用“模数共振”举动和高质量数据集六大专项举动,把制度框架和基础设备搭好了。国家医保局用“两类核心数据集”计划,把国家层面最大的数据源摆上了桌。湖北联盟、苏州可信数据空间、协和超声AI等在各自的方向上跑通了部分的破局途径。

但三个结构性的供需缺口——数据格式不通、标注产能不足、合规边界不清——仍将在将来2–3年内制约供给侧的释放速度。这也是数商的机会窗口:谁能帮医院把原始数据变成AI-Ready数据,谁就占据了医疗数据产业链受骗前最稀缺的生态位。

有一个来自哈佛和斯坦福的正告值得一切人记住:假如医疗AI的数据来源被AI本人生成的文本污染,模型会在迭代中退步——“数据远亲繁衍”的后果比数据不足更严重。这给了人类一个不可替代的角色:高质量医疗数据的消费和验证,最终必须由具有医学专业才能的人来完成。AI可以是工具,但不能是作者。

—— · ——

本文信息来源:国家数据局官网(nda.gov.cn)、工业和信息化部(miit.gov.cn)、国家医保局、湖北省数据局(sjj.hubei.gov.cn)、江苏省卫健委、广州市卫健委、量子位(qbitai.com)、36氪(36kr.com)、Nature Scientific Data(nature.com)、CHUV(chuv.ch)等威望渠道。截至2026年6月6日。




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5