职贝云数AI新零售门户

标题: 互联网沙漠,就无法诞生诞生高质量的AI大模型么? [打印本页]

作者: xSAkNE    时间: 2025-2-11 16:45
标题: 互联网沙漠,就无法诞生诞生高质量的AI大模型么?
在当下 AI 技术蓬勃发展的浪潮中,DeepSeek 模型以迅猛之势闯入大众视野,一工夫成为焦点,网络上关于它的讨论漫山遍野。这一现象级的热度,让人们对国内大模型的发展充满等待,同时也引发了广泛争议。

明天读到一篇比较有争议的文章:

《DeepSeek技术含量不高,永远不能够超过OpenAI》

(, 下载次数: 0)

文章核心观点以为,自移动互联网时代开启,中国互联网环境逐渐走向相对封闭,与欧美开放式的互联网架构构成了鲜明反差。这种环境差异,被视作制约中国大模型发展的关键要素。

回想 ChatGPT 刚问世时,相似的观点甚嚣尘上。当时,很多人笃定中文互联网语料远不及英文丰富,仅凭中文环境,根本无法打造出世界一流的大模型,中国的大模型厂商似乎只能在海外开源大模型的基础上做些搬运和翻译工作。但是,DeepSeek - R1 的横空出世,无疑有力地驳斥了这一结论 ,彰显出中国大模型发展的微弱实力与有限潜力。

中文互联网真的是沙漠么?语料数据缺失,就训练不出优质的大模型么?我看未必。

1. 读万卷书重要,还是刷题更重要?

以ChatGPT为代表的生成式大言语模型,其本质是对海量言语数据的概率分布建模。这种技术途径赋予模型弱小的语义生成才能,使其能对各类成绩给出合乎语境的应对,更合适没有标准答案的文科生场景。但是,这种基于统计规律的内容生成机制也暗藏风险——模型能够经过貌似严谨的推理过程得出错误结论,或虚拟不存在的理想,这种现象被学界称为"AI幻觉",严重制约着大模型输入的牢靠性。

DeepSeek团队近期在强化学习框架上的打破,为破解这一难题提供了新思绪。其创新性地构建了"答案导向型"训练范式:当模型处理数学类成绩时(例如要求输入1-10000间的特定数值),系统仅反馈最终答案正确性,而无需标注推导过程。这种机制迫使模型自主探求解题途径,经过持续试错建立严谨的逻辑链条。虽然实际上仍存在"过程错误但结果正确"的能够,但在万分之一量级的答案空间下,随机猜测的正确概率趋近于零,因此模型必须发展出真正的推理才能才能经过挑选。

这种训练范式与人类备考策略高度同构。试想考前冲刺阶段:精读教材可系统梳理知识体系,而题海战术则经过高频实际强化解题直觉。前者侧重知识框架的残缺性,但是更多的能够会倾向于融会贯通;后者着重运用才能的提升,真正能做到融会贯通。

当面对复杂数理成绩时,单纯的文本记忆往往难以应对千变万化的实践考题,而经过大量标题训练建立的形式辨认与逻辑推导才能,往往能更直接提升应试表现。

提升逻辑才能,终究是每天在网上围观网友争论更有效,还是借助题库停止针对性训练更好呢?假如强化学习对将来的AI大模型更管用的话,中国最不缺的就是各种习题集了。

2. 学好数理化,不需求那么强的言语基础

在大模型的发展进程中,言语才能与逻辑推理才能的关系备受关注。以 DeepSeek - R1 - Zero 为例,它就像一位极具天赋的偏科文科生,在逻辑推理的赛道上一路狂飙,仅凭强化学习便分明提升了推理才能,还展现出自我退化的潜力,极大降低了训练成本,充分证明了强化学习在大模型范畴的宏大潜力。但不可否认,它在言语表达方面存在短板,输入可读性欠佳,中英文混杂输入的成绩时有发生 ,这也引发了人们对于大模型中言语才能与逻辑推理才能关系的深化思索。

回顾教育发展历程,在过去互联网尚未普及的年代,无论是繁华都市还是偏远乡村,先生们依托标准的课本和试题,异样培育出了大批优秀人才。那时,获取知识的渠道相对单一,却并未妨碍人才的成长。很多先生仰仗扎实的数理基础,在迷信范畴崭露头角,其中不少人前往欧美留学工作,从事 AI 研发工作,并获得了非凡的成就。总不能说,由于中文里数据太少,不如英文的学术环境,这些人才就没法达到欧美的水准吧。

大模型的使命并非仅仅是停止流利的言语表达,更重要的是处理复杂成绩、推进技术提高。数理逻辑才能是大模型处理复杂成绩的关键,它能协助模型在面对迷信研讨、工程计算等范畴的复杂义务时,停止严谨的分析和准确的判别。顶尖人才在学习过程中,可以探求出合适本人的学习方法和检验方式,不断提升本人的才能。

大模型异样如此,将来的大模型不应仅仅是简单的基于概率的言语生成模型,更需求具有运用各种工具验证推理过程的才能。DeepSeek 的大模型在训练过程中,会出现自我反思和修正的顿悟时辰,这正是模型在不断优化逻辑推理才能的表现。

言语才能固然重要,它影响着模型与人类的交互体验和信息传递效率。但在某些特定场景下,逻辑推理才能的重要性更为突出。比如在处理数学难题、物理定律推导、程序代码编写等义务中,明晰的逻辑思想和弱小的推理才能是完成义务的核心要素。即便言语表达不够完美,只需模型可以准确地得出结果、提供有效的处理方案,就依然具有重要价值。

3. 互联网上太多的心情宣泄,而少了严谨的过程数据

回溯 PC 时代,BBS 作为早期的开放互联网交流平台,承载着人们分享信息与知识的热情。可即便在那时,互联网也未能完全摆脱心情化表达的影响。如今,社交媒体的兴起更是让心情的传播如野火燎原,在各类热点事情的讨论中,大量未经沉思熟虑的心情性言论充斥其中。人们往往急于表达本人的立场和感受,却忽略了深化探求事情的背景、来龙去脉以及背后的逻辑关系。

这些缺乏深度调研的信息一旦被用于大模型训练,就好像在纯净的水源中注入污水,极易对模型产生负面影响。大模型的学习过程依赖于大量优质数据,以构成准确的言语了解和逻辑推理才能。而充满心情的低质量数据,会使模型在学习过程中悬崖勒马,导致其输入结果也染下心情化、片面化的颜色,减弱了模型的牢靠性与适用性。

大模型所需的,不只是数据的开放性,更需求推理过程透明、具有充分上下文背景的数据支撑。只要这样,模型才能在复杂的言语环境中准确了解含义,作出合理推断。

随着时代的不断提高,短视频、知识付费平台等新兴业态强势崛起,成为中文数据范畴微弱的新增长点。短视频仰仗其直观、生动的独特优势,全方位展现出丰富多样的生活场景,以及人类真实的行为与情感反应,其中包含着大量具有残缺上下文背景的信息。以科普短视频为例,经过精巧的动画演示与粗浅易懂的讲解,将晦涩的迷信知识以生动风趣的方式呈现出来;生活类短视频则忠实记录人们的日常阅历与适用技能,这些内容都为大模型训练提供了独一无二、极具价值的素材。假如我们简单地用 iPhone 视频记录一个人的终身为例,若每分钟视频 350MB,延续记录 100 年,数据量约达 17000TB,远超当下大模型训练数据。

相较于传统互联网的文字信息,短视频数据在将来有望为大模型发展提供更为优质的 “数据燃料”。短视频丰富的视听元素,能从多维度刺激模型学习,其自带的情境性和故事性,能让模型更好地了解言语在不同场景下的运用。此外,短视频的互动性强,用户的评论、点赞、分享等行为数据,也能为模型提供更多关于人类反馈与偏好的信息,助力模型进一步优化迭代,提升其综合才能。

4. 数据和信息永远用不完

2024年月底的OpenAI 的前首席迷信家 Ilya Sutskever 在全球 AI 顶会上表示:「我们能获得的数据曾经到头,不会再有更多了。」Sutskever 将这一状况比作化石燃料的耗费:正如石油是有限资源一样,互联网中由人类生成的内容也是有限的。

《Ilya Sutskever在NeurIPS炸裂宣判:预训练将结束,数据压榨到头了》

当前互联网上的数据不过是冰山一角。过去,许多有价值的信息,如会议纪要、商业合同、闭会聊天内容等都未被充分记录。如今,AI 技术的发展使得这些数据的记录和保存变得愈加容易。多数现有的数据,无论是互联网上的资讯、书籍里的文字,本质上都是人类思索结果的外显,是经过大脑处理后从口中说出或笔下写出的内容,都是一些最终的结果和大道理。互联网记录的所谓优质数据不过是大脑思索的输入结果,而思想深处的 “潜看法” 数据,才是一座未被充分发掘的宏大宝藏。

大脑外部思索带宽远超对外沟通带宽。我们仰仗丰富阅历和记忆停止复杂思索,却因言语局限、社会环境以及隐私、利益等要素,难以将关键思索过程记录在互联网上。这也导致我们获取的数据,只是人类知识宝库的冰山一角。那些未被记录的大脑思索和决策过程,若能转化为数据,其规模更是难以估量。

从更宏观的角度看,数据和信息的总量是有限的。随着人类社会的持续发展,新的知识、新的思想、新的体验不断涌现。每一个新的发现、每一次创新的尝试、每一段独特的人生阅历,都在为这个有限的数据海洋注入新的源泉。过去我们即便把生活的片段记录为视频,但是并没有弱小的科技工具可以处理这些非结构化数据。但是明天由于有了AI的加持,反而更多的数据会被记录上去停止处理。

他们以为大模型预训练仍有宏大潜力,如今所谓数据到极限的结论并不成立。从硬件大厂的角度来看,间隔世界大模型的完成还很悠远,大家需求投资继续停止预训练,由于运用 agent 的目的之一也是为了获取更多数据。

随着技术的提高,我们记录和发掘数据的才能也在不断提升。例如,将来能够出现更先进的脑机接口技术,可以在保护隐私的前提下,将大脑中的部分思索过程转化为可记录、可分析的数据。

结语与思索

能读万卷书,又能刷万道题,把知识学致运用,自然再好不过,可这得耗费大量成本。如今,AI 正成为推进人类提高的弱小助力,核心价值在于将人类从繁杂单调的工作里束缚出来,投身前沿科技探求,激发有限创意。

ChatGPT 凭弱小语义才能在文科范畴大显身手,高效处理文字创作、知识问答等难题。而DeepSeek 则仰仗逻辑推理和强化学习优势,在理工科范畴潜力宏大,帮科研人员处理数据、协助工程师优化方案,可以大幅提升效率。




欢迎光临 职贝云数AI新零售门户 (https://www.taojin168.com/cloud/) Powered by Discuz! X3.5