职贝云数AI新零售门户

标题: 《DeepSeek科研专栏》第9篇 | 乳腺癌个性化院外管理 [打印本页]

作者: jGuGBg    时间: 前天 04:59
标题: 《DeepSeek科研专栏》第9篇 | 乳腺癌个性化院外管理
(, 下载次数: 3)

添 加 关注

获取近万条乳腺专业资讯,

不提高都不行!

学习就是这么霸气!

(, 下载次数: 3)

(, 下载次数: 3)

明天分享一篇科研文献:Wang Q, Chen Z, Zhang H, et al. Large language models could be applied in personalized out-of-hospital management for breast cancer: a prospective randomized single blind study. Sci Rep. 2025;15(1):33589.
IF 3.9, Q1

文献解读

大言语模型运用于乳腺癌的个性化院外管理:一项前瞻性随机单盲研讨

Large language models could be applied in personalized out-of-hospital management for breast cancer: a prospective randomized single blind study

(, 下载次数: 2)

【摘要】

个性化的院外管理可以分明改善乳腺癌患者的生活质量。本研讨旨在评价大型言语模型(LLM)在乳腺癌院外管理中的准确性、有效性、安全性、个性化程度和情感关怀才能。

本研讨建立了一个数据清洗和分类流程,以概括院外管理的三种次要场景。运用浙江大学附属邵逸夫医院乳腺癌数据库中 10 名患者的电子健康记录数据(已隐去患者身份信息)生成了用于数据采集的真实数据集。然后,将 EHR 数据集与三种院外管理场景停止婚配,生成 100 个虚拟患者,供 LLM 运用 GPT-o3 和 DeepSeek-R1 停止对话生成。此外,约请了四位专家运用李克特量表从五个维度对 LLM 的回答停止评分。截至 2025 年 4 月 1 日,这四位评价专家已对 LLM 和 100 个虚拟患者的对话停止了评分。

结果表明,DS-R1 和 GPT-o3 的表现均良好,得分次要集中在 3 分和 4 分。研讨发现,DS-R1 和 GPT-o3 在准确性、个性化和情感关怀方面存在统计学意义上的分明差异( P < 0.01)。但是,在有效性和安全性方面,二者的P 值分别为 0.231 和 0.086。此外,DS-R1 在相反工夫内生成了更多的令牌(约 1.8 倍),且经济成本更低,同时其呼应工夫也比 GPT-o3 更短。GPT-o3 和 DS-R1 在乳腺癌患者的院外管理中均表现出个性化、同理心和准确性。DS-R1 的全体表现优于 GPT-o3,尤其是在个性化、情感关怀和准确性方面。 有必要展开更多研讨,开发嵌入特定知识的 LLM,以减少诸如幻觉或冗长反应等不利要素。

已在 GitHub 上开源了此实验中运用的代码、匿名数据集和评价结果( https://github.com/Maxin-C/LLM-Evaluation)。

(, 下载次数: 3)

方法概述



(, 下载次数: 2)

(1)首先,在数据搜集阶段,建立了一个数据清洗和分类流程,用于从公开的乳腺癌相关对话数据集(Huatuo-26M)中提取成绩数据集。该数据集涵盖了三种典型的院外管理运用场景:疾病咨询、康复指点和心思管理。此外,从浙江大学附属邵逸夫医院乳腺癌数据库中选取了已去除身份信息的真实患者数据(10 例,表1),构建了一个电子病历(electronic health record,EHR)数据集。

(, 下载次数: 2)

表1 EHR 数据集的次要数据

(2)基于这两个数据集,在对话生成阶段,将每位患者的电子病历数据与对应于三种院外管理场景的多组成绩停止婚配。应用电子病历数据及其对应的成绩集,本研讨设计了一个提示工程框架,大言语模型(LLM)扮演虚拟患者(virtual patients,VP),模拟院外管理场景,并与 GPT-o3 和 DS-R1(发布于 2025 年 1 月 20 日)停止多轮对话。此过程生成了一个模拟真实世界交互的问答数据集。详细来说,就是基于成绩数据集和电子病历数据集,将成绩与患者数据停止婚配,为10位患者各分配 10 组成绩,每组成绩含有3个成绩(三种临床场景分别提供一个)。思索到不同阶段的患者能够会提出不同的成绩,作者设计了一个成绩婚配提示(附录 A3),指示 DeepSeek-V3 根据患者的临床背景辨认出 10 组最有能够的成绩,从而完成数据集的婚配。获得100 个虚拟患者的背景信息,其中包括电子病历数据以及来自三种场景中每种场景的一个能够成绩。

(, 下载次数: 4)

图2 对话生成过程

(3)在人工评价阶段,GPT-o3 和 DS-R1 生成的问答数据集被随机且平均地分成两部分,分别分配给两组评价人员。采用李克特量表(Likert scale ) 从五个维度(包括有效性、安全性、准确性、个性化和情感关怀)获取客观评价。详细过程:基于 100 组虚拟患者信息, GPT-o3 和 DS-R1 各自生成100组对话,共计 200 组对话。约请四位乳腺科医生评价该数据集。数据集被随机均分为两部分( 50组GPT-o3对话+ 50组DS-R1对话)。每部分均由两位了解电子病历数据但不知晓模型来源的医生停止评价。由于 GPT-o3 的推理过程运用英语,这自然使其与 DS-R1 的内容有所区别,因此运用翻译提示(附录 A7)指示 DeepSeek-V3 将英文内容转换为中文,并将模型回复一致格式化为“Reasoning: … Answer: …”。翻译后的内容(见附录 B)由具有高级英汉双语才能(硕士及以上学历)的非评价人员停止人工审核,以确保翻译的准确性并减少潜在的曲解。数据内容运用一致的 HTML 渲染代码渲染成图像停止显示。模型评价采用五点李克特量表(如表 2 所示 ) 。评价结果经过电子表格搜集。



结果



人工评价结果

图 3a 汇总了四位评价者对对话的评分,即 DS-R1 和 GPT-o3 在五个维度上的平均得分。雷达图显示,DS-R1 在一切五个维度上的平均值均高于 GPT-o3。运用 Shapiro-Wilk 检验来检验两种言语学习模型(LLM)在五个维度上的数据分布能否符合正态分布。结果表明,数据不符合正态分布( P < 0.01)。因此,我们采用了Mann-Whitney U检验,结果显示DS-R1和GPT-o3在准确性、个性化和情感关怀方面存在统计学上的分明差异( P < 0.01)。但是,在有效性和安全性方面,P值分别为0.231和0.086。此外,运用Hodges-Lehmann估计量作为非参数效应量目的来估计数据的中位数差异。与Mann-Whitney U检验的结果分歧,两种LLM在准确性、个性化和情感关怀方面均表现出统计学上的分明差异( P < 0.01),而有效性和安全性的p值分别为0.231和0.086。

图3b 显示了四位评分者的平均评分。结果表明,除了 GPT-o3 在评分者 1 的情感关怀、评分者 2 的安全性、评分者 3 的安全性以及评分者 4 的有效性方面略优于 DS-R1(但这些差异均不具有统计学意义)之外,DS-R1 在一切其他维度上均优于 GPT-o3,这与总体结论分歧。

将两种 LLM 在五个维度上的评分分布绘制成柱状图,如图 3c 所示。 结果表明,两种模型均表现良好,得分次要集中在 3 分和 4 分。此外,在一切五个维度上,DS-R1 低于 3 分的比例均低于 GPT-o3,而 4 分的比例则分明高于 GPT-o3,这表明 DS-R1 获得了更积极的评价和更高的高分比例。

(, 下载次数: 3)

图3 人工评价结果:

( a )LLM 的平均得分。蓝色区域和数字代表 DS-R1,黄色区域和数字代表 GPT-o3。“*”标签表示该维度存在统计学分明差异;

( b )四位评分者的平均得分。颜色与模型的对应关系与(a)分歧,“*”标签表示该维度存在统计学分明差异。

工夫和经济成本评价结果

如图 4 所示,结果表明,无论是单轮对话还是残缺对话,DS-R1 生成的词元数量约为 GPT-o3 的 1.8 倍。这表明,在扫除对话轮数差异的状况下,DS-R1 倾向于生成更多用于推理和解释的字符。

一方面,冗长的内容使得模型的呼应难以疾速阅读和了解,导致其在人工评价中无法与 GPT-o3 达到统计学上的分明差异。另一方面,虽然 DS-R1 的单词成本较低,但其总经济成本却约为 GPT-o3 的 1.6 倍。

两种 LLM 的工夫成本也几乎相反。DS-R1 的总呼应工夫更短,因此可以更快地满足需求。

(, 下载次数: 3)

图 4  大言语模型所需的工夫和经济成本



局限性



本研讨具有随机、多阶段研讨设计、LLM-人类医生评价和结果验证等分明优势。但是,也存在一些局限性。

首先,仅评价了两种最新的推理加强型 LLM,其他 LLM(例如 Grok3)并未归入研讨。

其次,虽然创建了超过 100 个成绩的数据集,但测试中仅模拟了 10 个虚拟病人,样本量依然有限。

第三,归入了 4 位参与 LLM 反应评价的医生,个体间的异质性也能够影响结果。但是,研讨采用了 Cohen's Kappa 检验来降低潜在的偏倚。在数据集 A 中,DS-R1 得分的 Cohen's Kappa 检验结果为 0.52( P <0.01),GPT-o3得分的Cohen's Kappa检验结果为0.68( P <0.01)。在数据集B中,DS-R1评分的结果为0.80( P <0.01),GPT-o3评分的结果为0.54( P <0.01)。

第四,由于随访工夫有限,没有预后事情数据,这限制了本研讨对院外管理中运用LLM与疾病预后之间关联的探求。

最后,本研讨为单中心研讨,需求进一步验证。

附录

1.     Appendix A. Prompt Design

1.1. Appendix A1. Dataset filtering prompt

Please determine whether the following content is related to postoperative rehabilitation for breast cancer. Note: It must explicitly mention breast cancer, and the dialogue must occur in a postoperative scenario. The judgment should be as strict as possible to filter out as many false positives as possible. Only output True or False.

1.2. Appendix A2. Classification and summarization prompts

QA Dataset:

{qa 1}, {qa 2}, {qa 3}, …

Please summarize the questions related to the three domains of disease consultation, rehabilitation guidance, and psychological management from the following question-and-answer content.

Definitions:

Disease consultation: These involve patients' queries about their disease status, including but not limited to surgery outcomes, pathology reports, recurrence risks, metastasis possibilities, and subsequent treatment plans (e.g., radiation therapy, chemotherapy, endocrine therapy, targeted therapy). They typically focus on the nature, extent, progression, and prognosis of the disease.

Rehabilitation Guidance: These involve practical issues patients encounter during postoperative recovery, including but not limited to wound care, pain management, dietary nutrition, exercise, lymphedema prevention, and adjustments to daily life. They generally focus on improving physical function, enhancing quality of life, and reducing complications.

Psychological management: These involve psychological distress experienced by patients during illness and treatment, including but not limited to anxiety, depression, fear, insomnia, emotional fluctuations, interpersonal relationship issues, and sexual health problems. They typically address how to manage negative emotions, reduce psychological stress, and rebuild a positive mindset.

Notes:

The summarized questions should not include any personal patient information.

The questions should be concise.

No more than 10 questions should be listed for each domain. If there are more than 10, only retain the most frequently occurring questions.

EXAMPLE JSON OUTPUT:

{

" disease consultation ": ['question1', 'question2', ...],

" rehabilitation guidance ": ['question1', 'question2', ...],

" psychological management": ['question1', 'question2', ...],

}

1.3. Appendix A3. Question matching prompt

Patient’s information: {patient information}

Question dataset: {

" disease consultation ": ['question1', 'question2', ...],

" rehabilitation guidance ": ['question1', 'question2', ...],

" psychological management": ['question1', 'question2', ...],

}

According to the 'patient information', please select one problem from the ' disease consultation ', ' rehabilitation guidance 'and ' psychological management 'of the question dataset that is most consistent with the patient's situation and most likely to occur at the same time and form a set of patient problem sets. Ten different sets of patient questions were selected 10 times and output with json.

EXAMPLE JSON OUTPUT:

[

       [‘disease consultation 1’, ‘rehabilitation guidance 1’, ‘psychological management 1’],

       [‘disease consultation 2’, ‘rehabilitation guidance 2’, ‘psychological management 2’],

       …

       [‘disease consultation 10’, ‘rehabilitation guidance 10’, ‘psychological management 10’],

]

1.4. Appendix A4. Virtual patient prompt

System Prompt:

Now that you're an out-of-hospital breast cancer patient, your EHR information and core needs have been clearly defined in the above section. Here you are in a group chat asking for help from a health care provider.

User Prompt:

Example group chat: {WeChat group chat history}

EHR information: {EHR}

Core needs: {[‘disease consultation’, ‘rehabilitation guidance’, ‘psychological management’]}

Now that you're an out-of-hospital breast cancer patient, your EHR information and core needs have been clearly defined in the above section. Here you are in a group chat asking for help from a health care provider. Please follow the way patients communicate in the ' Example group chat' and express your needs.

Attention: You only need to speak one request at a time, not necessarily in order. Pay attention to the context and your personal information during the conversation and try to give some feedback to what I am saying. End the conversation politely when the core appeal is met. I'm going to be talking to you as the doctor, and you're just going to be the patient.

{dialogue history}

1.5. Appendix A5. Virtual doctor prompt

System Prompt:

Now that you're a breast cancer doctor, your patient is contacting you for help after surgery.

EHR of the patient is shown below: {EHR}

Please provide as professional, effective and understandable feedback as possible in conjunction with the patient's information.

User Prompt:

{dialogue history}

1.6. Appendix A6. Conversation monitoring prompt

System Prompt:

You are the conversation monitor, and your function is to determine if the conversation is complete. All you must do is output True or False.

User Prompt:

Core needs: {[‘disease consultation’, ‘rehabilitation guidance’, ‘psychological management’]}

Please determine whether the patient in the following conversation has obtained all the necessary information based on the core needs. If yes, output True; otherwise, output False. No additional content is required.

Conversation: {dialogue history}

1.7. Appendix A7. Translation prompt

System Prompt:

Please act as a translation software to translate the input text into Chinese.

User Prompt:

{content}

2.     Appendix B. Prompt Design

In Appendix B, we will present examples of DeepSeek-V3 translating English text generated by GPT-o3 into Chinese text to demonstrate the fairness of translation in this study. Since the main text content of GPT-o3 is in Chinese, with only the reasoning part in English, the examples will only display the English content of the reasoning section that requires translation.

Example 1:

Original Text (English):

**Providing post-surgery guidance**\nI’m tasked with giving post-surgery advice to a 63-year-old breast cancer patient. The details provided include specific characteristics such as the diagnosis method, tumor location, and measurement.\n**Understanding patient needs**\nTaking a closer look at the patient's age, menstrual status, diagnostic method, and tumor specifics to tailor post-surgery advice effectively.

Translated Text (Chinese):

**提供术后指点**\n我的义务是向一位63岁的乳腺癌患者提供术后建议。所提供的详细信息包括诊断方法、肿瘤地位和大小等详细特征。\n**了解患者需求**\n细心查看患者的年龄、月经状况、诊断方法及肿瘤详细状况,以有效定制术后建议。

Example 2:

Original Text (English):

I'm gathering info on managing a post-surgery breast cancer patient, focusing on ensuring accurate reporting and considering potential complications and follow-up care. Progress is steady, but there's more to explore.\n**Crafting a comprehensive reply**\nI'm assembling a thorough list of potential post-surgery complications for a 63-year-old breast cancer patient, including pain, bleeding, and infection, and detailing accurate diagnostic methods.

Translated Text (Chinese):

我正在搜集关于管理乳腺癌术后患者的材料,重点在于确保准确报告,并思索潜在并发症及后续护理。目行停顿波动,但仍有更多内容需求讨论。\n **正在撰写一份片面回复**  \n我正在为一位63岁的乳腺癌患者整理术后能够出现的并发症清单,包括疼痛、出血和感染等,并详细阐明准确的诊断方法。

Example 3:

Original Text (English):

**Assessing post-surgery**\nI'm piecing together the patient's medical history, including their age, lack of stillness, diagnosis method, tumor location, and physical measurements. This helps me evaluate their progress and tailor ongoing care.\n**Gathering relevant details**\nI'm noting the patient's age, menstrual status, diagnosis method, tumor location, and physical measurements, aiming to understand their needs and manage post-surgery care effectively.

Translated Text (Chinese):

**术后评价**\n我正在整合患者的病史材料,包括年龄、活动形态、诊断方式、肿瘤地位和体魄测量数据。这有助于评价患者的恢复状况,并为其定制持续护理方案。\n **搜集关键信息** \n我正在记录患者的年龄、月经形态、诊断方式、肿瘤地位及体魄测量数据,旨在片面了解其需求,从而有效管理术后护理。

3.     Appendix C. Shapiro-Wilk Test Results

The specific p-values from the Shapiro-Wilk test are as follows:

Table C1. The Shapiro-Wilk test p-value of 2 evaluated LLMs on 5 dimensions

Effectiveness

Accuracy

Personalization

Safety

Emotional Care

DS-R1

GPT-o3

附文章全文

(, 下载次数: 4)

(, 下载次数: 3)

(, 下载次数: 3)

(, 下载次数: 3)

(, 下载次数: 3)

(, 下载次数: 3)

(, 下载次数: 3)

(, 下载次数: 3)

专栏 特邀主编

(, 下载次数: 3)

董爱萍   博士

简历:

上海理工大学健康迷信与工程学院 博士研讨生

上海理工大学乳腺肿瘤智能诊断与治疗研讨中心科研秘书

与美丽同行·优秀志愿者

博导:韩宝三博士,上海交通大学医学院附属新华医院乳腺外迷信科带头人,上海交通大学博士研讨生导师和博士后合作导师,上海理工大学博士研讨生导师和博士后合作导师,上海理工大学乳腺肿瘤智能诊断与治疗研讨中心主任。

主攻:乳腺肿瘤的临床与基础研讨。

Wechat  编辑 /审校

编辑:Amy  博士生

上海理工大学乳腺肿瘤智能诊断与治疗研讨中心

中国整形美容协会/精准与数字医学分会青年理事

(, 下载次数: 2)

审校:韩宝三 博士  博士后 主任医师 博导

上海交通大学医学院附属新华医院乳腺外科  学科带头人

上海交通大学/医学院 和 上海理工大学/医疗器械学院  硕士研讨生、博士研讨生导师、博士后合作导师

上海理工大学乳腺肿瘤智能诊断与治疗研讨中心主任

(, 下载次数: 4)

A在线学习平台

互粉平台

有人说,

伟大的事业都始于梦想

伟大的事业都基于创新

伟大的事业都成于实干

不如先,

从学习末尾。

(, 下载次数: 2)





微信号实名号 :

中国乳房重建外科联盟

(breastbreastMDT)

特点:

这是一个实名微信号,目前冤家圈有1万+名乳腺专业相关医生实名互粉,这里凝聚了国内乳腺专业医生中最活跃的小伙伴,也是目前国内互粉粉丝最多的实名微信号。该实名微信号的冤家圈内有1万+条的乳腺疾病的专业资讯。

这里也是移动互联网范畴中,乳腺专业公益课程历史最悠久(10年,始于2015年)、课程最多的专业课程平台(140+期):乳腺外迷信大讲堂、最后一公里乳腺外迷信周周讲(450+期)、中国乳腺外科手术学高峰论坛(12届,始于2014年)、中国男性乳腺健康学术论坛和最后一公里 规范化乳腺外科手术学万名医师培训计划的发起者。

互粉条件:

添加好友互粉时,请务必提供您目前就职的省份城市称号、医院科室和姓名信息,如:我是甘肃省兰州市妇幼保健医院乳腺外科王小丽,特别强调:仅仅接受医生,仅仅接受实名互粉,无诚意者,一概不回复!

经过央求后,请看冤家圈公益课程预告,有兴味的可以本人私信央求,零费用。

(, 下载次数: 3)

微信微信公众号 :古代乳腺病学

次要内容:这个微信公众号有100+个乳腺有关的“指南”和“专家共识”,是您国际化同步的最简单途径。

有“乳腺前沿发布”“男性乳房健康专栏”“乳腺腔镜手术专栏”“母乳喂养专栏”“乳腺X线诊断专栏”“乳管内肿瘤专栏”“乳腺炎症性疾病专栏”“DeepSeek科研专栏”“饮食与乳腺健康专栏”……

欢迎给专栏投稿,详细请私信微信号:breastbreastMDT。

(, 下载次数: 2)

公众号:乳腺健康联盟

次要内容:传播正确的乳腺健康知识,助力健康中国。这里有来自于100+家医院乳腺专业医生的科普撰稿,当然我们也欢迎您积极投稿乳腺科普短文,详细请私信微信号:breastbreastMDT。

荣誉

出品

(, 下载次数: 5)
  本专业资讯由全国百余家医院和以下组织结合荣誉出品:

1.   北京金兰纪念乳腺医学研讨院

2.   上海理工大学/乳腺肿瘤智能诊断与治疗研讨中心

3.   中国妇女发展基金会/与美丽同行·女性健康关爱计划

4.   新疆兵团慈善总会/金兰·兵团女性健康关爱举动

5.   新疆消费建设兵团第十师北屯慈善总会/金兰·女性健康关爱举动

6.   世界内镜医师协会/中国整形外科联盟

7.   中国乳房重建外科联盟

8.   与美丽同行·志愿者联盟

9.   粉红公益·全国乳腺肿瘤早期精准诊断专家联盟

10. 最后一公里·精准乳腺整复万名医师培训计划

11. 东方乳房重建外科临床解剖学培训基地

12. 中国整形美容协会/健康智慧医美分会

13. 中国中中医结合学会/医学美容专业委员会乳房术后畸形修复学组

14. 中国整形美容协会/精准与数字医学分会/乳房整形专业委员会

15. 中国水利电力医学迷信技术学会/保健与养生分会

16. 科普核心期刊《健康指南》名医访谈-女性健康专栏

17. 科普期刊《科先生活》乳腺健康专栏

18. 江苏省扬州市旧事中心健康融媒中心女性健康专家委员会

19. 深圳·粉红丝带乳腺关爱公益基金

20. 新疆兵团科技计划:基于人工智能的兵团乳腺癌规范化诊治质控系统构建的研讨,2024AB065

21. 上海医药行业协会

22. 上海交通大学医学院附属新华医院乳腺外科

医学文献知识,

过去全世界同道们总结积累的阅历教训,

不可不学。




日日行,不怕千万里;

常常做,不怕千万事。

  精准 | 精心 | 精巧

—  三 精  —






欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5