职贝云数AI新零售门户

标题: EMS | DeepSeek、ChatGPT与Gemini,谁更合适科研? [打印本页]

作者: hd7Jjj    时间: 6 小时前
标题: EMS | DeepSeek、ChatGPT与Gemini,谁更合适科研?

本研讨系统评价了三大主流大言语模型(LLM)在水迷信范畴的表现,并首创了一套包含相关性、准确性、真实性和新颖性的四维评价框架,揭示了不同模型在特定义务中的独特优势。©️【温室AI笔记】编译

研讨背景与迷信成绩
现有研讨虽已探求LLM的运用,却缺乏一个系统、量化的评价框架来横向比较不同模型的功能。

因此,DeepSeek、ChatGPT和Gemini在处理水迷信四大核心范畴(机器学习与优化、遥感、洪水模拟、泥沙输运)的关键成绩时,表现如何?

研讨设计与核心方法
为确保评价的严谨性,研讨首先从14篇高质量的综述论文中,为四个水迷信子范畴各设计了五个基准成绩。

研讨团队构建了一套残缺的评价流程(图1),其核心是一个创新的评价准绳。该准绳不只评价答案的相关性、真实性和新颖性,还特别设计了一个结合准确婚配与模糊婚配的词语婚配算法(图3),用于量化评价答案的准确性。

一切模型均在一致、标准的“水文专家”角色提示下生成答案,以保证比较的公平性。

(, 下载次数: 0)

图1. 评价大言语模型效率的残缺流程图

(, 下载次数: 0)

图2. 用于评价大言语模型生成呼应的详细评分标准

(, 下载次数: 0)

图3. 用于计算呼应准确率的准确与模糊词语婚配算法流程

核心结果与讨论
研讨发现,没有任何一个模型能在一切范畴中片面胜出,不同模型展现出明晰的“性情”分野。

在机器学习、洪水模拟和泥沙输运这三个计算性较强的范畴,DeepSeek仰仗其深入的技术洞察和严谨的回答结构,获得了最高综合分。

相比之下,ChatGPT在遥感范畴的表现更优,其答案在技术深度与实际运用之间获得了更好的平衡。

Gemini则更侧重于理想世界的适用性和可持续性视角。

相似性分析揭示了模型间风趣的“亲疏关系”。

在高达70%的案例中,ChatGPT与Gemini的回答最为相似,表明它们的知识结构或推理途径能够趋同。

但是,在95%的案例中,DeepSeek与Gemini的回答差异最大(图4),暗示DeepSeek能够依赖于一套更独特或更专业的训练数据/架构。

(, 下载次数: 0)

图4. 机器学习与优化主题下,三大模型呼应的相似性热图

在准确性方面,一切模型的表现均相对出色,但各有侧重。

例如,在机器学习成绩上,DeepSeek的平均准确率最高,达到75.5%(图5),证明了其在技术细节上的牢靠性。

(, 下载次数: 0)

图5. 机器学习与优化主题下,各模型呼应的准确率对比

生成速度的差异也极为分明。Gemini的呼应速度最快,平均每秒可生成超过90个词,合适需求疾速获取信息的场景。

而DeepSeek由于其更强的推理过程,速度最慢,平均每秒不到10个词(图6),这一定程度上反映了其“沉思熟虑”的特点。

(, 下载次数: 0)

图6. 机器学习与优化主题下,各模型的呼应生成速度(词/秒)对比

(, 下载次数: 0)

图7. 洪水模拟主题下,三大模型呼应的相似性热图

图8. 泥沙输运主题下,各模型呼应的准确率对比

研讨展望
基准成绩的选择能够遭到原综述作者偏好的影响,且评分过程引入了专家判别的客观性。

将来的研讨可以构建更广泛的专家网络来共同设计成绩和停止评分,以加强普适性和客观性。此外,随着模型疾速迭代,持续性的动态评测将是必要的。

文献信息
Title: How well do DeepSeek, ChatGPT, and Gemini respond to water science questions?
中文标题: DeepSeek、ChatGPT和Gemini对水迷信成绩的回答效果如何?
作者: Seyed Hossein Hosseini*ᵃ, Ali Pourzangbarᵇ
单位: ᵃAalto University, School of Engineering, Department of Built Environment, Espoo, Finland (芬兰阿尔托大学工程学院建筑环境系); ᵇKarlsruhe Institute of Technology (KIT), Institute for Water and River Basin Management, Karlsruhe, Germany (德国卡尔斯鲁厄理工学院水与流域管理研讨所)
期刊: Environmental Modelling and Software, 2026
DOI: 10.1016/j.envsoft.2025.106772

声明: 本文仅为学术分享,观点仅代表原作者,详细内容请阅读原文。




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5