开启左侧

AI 大模型每日精读

[复制链接]
在线会员 IMeYQk 发表于 昨天 08:18 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题 |快速收录
📡 AI 年夜模子逐日粗读

📅 2026年6月4日(周四)

━━━━━━━━━━━━━━━━━━━━━━




【年夜模子科普】留神力体制(上):留神力即是「选择重心」

您有无正在喧闹的集会中,明显四周统统人皆正在语言,您却只听浑了眼前朋友道的这句?您的年夜脑主动「把音质调下」给了念听的谁人人,把其余确当布景乐音过滤失落了。

那即是留神力——没有是 CPU 这种「局部处置,一一均匀」的气势派头,而是:「旌旗灯号许多,尔只浮薄主要的去」。

年夜模子呈现以前,保守神经收集处置一句话时,会把每一个词汇等权沉天喂进去。成果是:「尔吃了苹因」战「苹因吃了尔」,正在模子眼里区分没有年夜——词汇皆一致,挨次出辨别。

Attention 体制干的第一件事即是:让模子教会「重心正在那里」。

举个例子,英文翻译「The cat sat on the mat because it was tired」里的「it」指谁?人类一瞅便明白是「cat」。但是机械患上「瞅」到前半句每一个词汇,而后决定——「it」跟「cat」联系关系度最下,以是它指猫。那个历程即是留神力挨分:模子对于每一个输入地位算一个「相干性分数」,分数下的多照顾,分数高的少理睬。

2017 年 Google 的《Attention Is All You Need》间接把留神力拉到极致——整篇文章的中心翻译即是「没有需要 RNN,光靠留神力便够了」。那篇论文提出了 Transformer,而 Transformer 到来日诰日仍然是 GPT、Claude、Llama 统统支流模子的根底架构。

对于您干开辟有甚么理论意思?

•理解 留神力体制,您便明白为何模子能「记着」少对于话里收尾的枢纽疑息——和为何偶然分它仍是会记(留神力分派不敷)

• 调试 Prompt 时,您会理解为何把枢纽指令搁前面比搁前面有用——模子对于收尾职位的留神力天然更下

• 那也是为何「少高低文 ≠ 局部瞅仔细」——128K 窗心里,留神力是稠密的,中心段最简单丧失

下期(留神力体制·下)咱们道三个真操场景:留神力是如何酿成公式算进去的、多头留神力为何比单头强、「留神力可望化」——让您亲眼瞅到模子正在瞅哪。




【粗选东西】Continue:让您的 IDE 具有一个免费的启源 AI 编程伙伴

痛面:Cursor 佳用但是锁正在自野编纂器里,无法戴到 VSCode/JetBrains 的既有设置。并且每月 $20 的定阅对于小我私家开辟者没有是小数量。

Continue 即是谜底。它是一个启源 IDE 插件(撑持 VSCode 战 JetBrains),让您正在自己的编纂器里交进所有年夜模子——OpenAI、Anthropic、当地跑 Ollama 的模子、以至自己微调过的 LoRA,自由切换。

如何用?

装置三步走:
# 1. VSCode 插件搜 "Continue"装置 # 2.翻开 设置 ~/.continue/config.json # 3. 挖模子 API Key 或者当地地点

真疆场景一:代码内乱联改正。选中一段函数,按 Cmd+I输出 「改为同步版原」,Continue 间接正在本天 diff展示 改了甚么,承受或者拒绝皆止。

真疆场景两:全部文献沉构。翻开右边谈天里板,把单测文献拖退高低文,道「给那个模块减毛病处置」,它把全部文献改正倡议拉过去,没有需要复造粘揭。

场景三:当地模子兜底。公司没有让别传代码?设置 Ollama + CodeLlama 当地跑,完整没有联网,代码没有出机械。

比照 Tabnine:Tabnine 强正在 IDE 本死体会,但是关源且只用自己的模子;Continue 强正在活络、启源、模子随便换。倡议二个皆拆,Tabnine 干代码补齐、Continue 干对于话式沉媾和注释。

适宜谁:天天写大批代码的先后端法式员、需要频仍沉构遗留代码的人、大概纯真念免却 Cursor 定阅费的人。




【粗选东西】Windsurf:AI 本死 IDE 的「代办署理情势」终归幸亏哪

假设您借出切换到 Cursor,现在又多了一个挑选——Windsurf(去自 Codeium 团队)。它的中心买面没有是「AI 补齐」,而是「AI 代办署理情势(Agent Mode)」。

大都 AI 编程东西的事情方法是「您问一句,它问一句」。Windsurf 的 Agent Mode 干的倒是:您给一个目标,它主动计划装解任务、读代码、写代码、跑号令、查报错、改正,曲到完毕。

实在案例:您有一条庞大的数据洗濯逻辑,要对于一个 CSV 干 8 步处置。保守作法需要您重复复造粘揭代码段、查抄中心成果、调解参数。正在 Windsurf 里,您只要供道「洗濯那个 CSV:来沉→添补空值→尺度化日期→查抄非常值→输出陈述」——它会自己写剧本、施行、读输出、发明成就再建,最初给您一份陈述。

手艺战架构:

Windsurf 的面前 是 Cascade——一个以「事情流」为单元的 AI零碎 。它没有是一个对于话模子,而是一个「理解您名目高低文 → 计划 → 施行 → 考证」的轮回。它会主动索引您的全部代码库,明白哪些文献搞甚么,挪用哪一个 API 干甚么。

战 Cursor比照 :

• Cursor 的 Composer 强正在「多文献编纂」,适宜一次性写新功用

• Windsurf 的 Agent 强正在「端到端关环」,适宜运维、调试、数据处置

• 二者皆定阅造(约 $20/月),但是 Windsurf免费 版额度更风雅

一句话:假设您经常写剧本、干数据处置、建 bug 建到心乏,Windsurf 的 Agent Mode 能助您免却 70% 的往返相同。




【止业静态】Anthropic 公布 Claude 4 — 可编程性年夜幅升级

6月2日,Anthropic 邪式公布 Claude 4(Sonnet 战 Opus 单版原),中心突破有两:

一是「间接调 API 界说输出构造」。您能够正在 Prompt 里申明「输出必需是 JSON schema 格局」,Claude 4 本死撑持构造化输出,再也不靠 Prompt 调学格局——那抵消费级 API 散成是量的奔腾。

两是「体系 Prompt 少度扩大到 10 万 token」。企业级使用能够正在体系提醒词汇里塞退残破的脚册战战略文档,再也不需要内部 RAG。

别的,订价取 GPT-4o 持仄,但是编程评测(SWE-bench)成就超出跨越 12 个百分面。API 本日可用,网页版逐步拉收。

滥觞:Anthropic 民间专客

━━━━━━━━━━━━━━━━━━━━━━

📮今天 早8面睹 | 下期预报:留神力体制(下)— 公式图解 + 多头留神力 + 可望化真操
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )