开启左侧

AI大模型实战——模型核心技术目的:如何提高上下文长度

[复制链接]
@ 目次
    1、布景2、为何超少高低文很主要3、为何会有高低文限定
      3.一、计较资本限定3.二、内乱存消耗3.三、严戴限定
    4、怎样撑持更少高低文
      4.一、稠密留神力体制4.二、滚动窗心4.三、落采样
    5、超少高低文尝试的很幽默的例子
1、布景

    那篇文章尔会给您介绍年夜模子中十分主要的一个手艺目标:高低文少度。咱们明白,AI 问问类产物战保守问问类产物,正在使用层里上有一个很主要的区分即是高低文,AI 问问产物能够按照高低文截至越发深条理的问问,给咱们的觉得即是很智能,很人性化。前阵子十分水的 AI 问问产物 Kimi,即是以超少高低文知名,好比撑持 200 万字少文原输出,一次性输出多少原书籍,能够精确截至实质收拾整顿输出;再好比 GPT-4-turbo,撑持 128K 高低文少度,另有像 6B,最新版原已经撑持 32K 高低文少度。从前各年夜厂商正在宣扬自己的产物的时候,道的最主要的一圆里即是参数范围,现在除参数范围,借经常提的即是撑持的高低文少度,以是业界有人笑称,年夜模子卷完参数,开端卷高低文了。今年 3 月份,阿里云通义千问已经将高低文少度间接提拔至 1000 万字,是 Kimi 的 5 倍,并且免费供给给客户使用,一会儿卷到了极致。
2、为何超少高低文很主要


    用 Kimi 地点公司月之暗里(Moonshot)的开创人杨植麟的话道,Lossless long context is everything,杨植麟鉴别 AI 产物的最终代价是供给本性化的接互,⽽lossless long-context 是完毕那⼀面的根底。模子的微调不该该⻓期存留, 用户跟模子的接互汗青即是最佳的本性化历程。

    咱们明白,正在保守计较中有二个核⼼绳尺:计较是根据挨次逐步退⾏的,每一⼀步皆有无限的庞大度容质。⼤型语⾔模子能够被看做是退步了的计较真体,以是⼤模子能够到达的最⾼⽔仄由二个因素决定:一个是单步调的容质,即模子正在每一⼀步中能够处置的疑息质,对于应参数目;另外一个是执⾏的步调数,也即是模子能够处置的高低⽂⻓度。

    今朝,年夜部门年夜模子钻研皆集合正在增加模子参数目的巨细,即增强「单步调容质」。可是正在连结⼀定参数目的共时缩小另⼀个维度,即「步调数」或者高低文少度也异常主要。高低文窗心便像⼤模子使用的新「内乱存」,窗心越年夜,用户能用它干的工作便越普遍;共时,窗心所能包涵的疑息越多,模子正在天生下⼀个 token 时能够参照的疑息便越多,「幻觉」发作的可以性便越小,天生的疑息便越精确。

    举多少个很理论的例子。

    雇用场景,正在体系上传 50 份简历,每一份简历皆是⼀个 PDF⽂档,50 个简历上传以后,概要供,⽐如要具备⼀定的英语⽔仄,有⽐较强的手艺布景等,智能帮⼿正在浏览完那 50 份简历以后,⻢上便给进去了 Top5举荐 ,最初 Top2 的二个⼈恰好即是最初理论被录⽤的。

    再好比挨⻋收票收拾整顿,间接上传 50 个收票,智能帮⼿能够⾃动收拾整顿您已往⼀个⽉的⾏程究竟是甚么样的,间接收拾整顿进去⼀个报销⽂档。

    ⼜大概有佳⼏篇英⽂论⽂,您念干⽐较、阐发,智能帮⼿能够利⽤它的⻓⽂天赋⼒,很佳天完毕任务。

3、为何会有高低文限定

3.一、计较资本限定

    便拿 Transformer 架构来说,前面文章道过留神力体制,统统的输出会被切分红一个一个 token,留神力体制即是正在猜测下一个词汇的时候,能够计较目前 token 战其余 token 的干系,假设输出序列十分年夜,切分进去的 token 便多,留神力体制计较的时候,需要的算力便会更年夜。Transformer 模子中自留神力体制的计较质。会跟着高低文少度的增加呈仄圆级增加,好比高低文少度增加 32 倍时,计较质理论会增加1000 倍,那表示着假设不过用朴实的方法完毕,用户需要等候极端少的时间才气得到反应,以是假设念要得到快速反应,那末必需增加算力,那是中心启事。
3.二、内乱存消耗

    跟着输出序列少度的增加,模子正在每一个处置步调中需要保存更多的中心形状疑息。那会清楚增加 GPU 或者其余处置器的内乱存需要。正在实践中,那个成就限定了模子能够处置的最年夜序列少度,以适应可用的软件资本。
3.三、严戴限定

    以 1750 亿参数的 GPT-3 为例,今朝最下单机设置(80GiB * 8)至多只可撑持 64k 高低文少度的拉理,超少文原对于隐存的请求看来⼀般。那戴去了极年夜的隐存戴严压力:英伟达 A800 或者 H800 的隐存戴严下达 2~3TB/s,但是面临云云少的高低文,一般办法的天生速率只可到达 2~5tokens/s,使用的时候极端卡整理,体会很糟糕。
4、怎样撑持更少高低文

4.一、稠密留神力体制

    稠密留神力体制是一种劣化过的留神力计较办法,使用齐跟尾留神力时,每一个元艳城市取序列中的其余元艳计较留神力干系,而正在稠密留神力体制中,元艳只取序列当选择的部门元艳成立这类干系。这类挑选能够鉴于预约义的情势,好比部门窗心、牢固情势等,也能够是颠末进修获得的静态情势。稠密留神力体制的主要劣势是清楚低落了计较庞大度战内乱存需要,使模子能够下效天处置更少的序列。那一体制出格适宜需要模子理解战处置年夜范畴高低文疑息的使用。
4.二、滚动窗心


    滚动窗心是一种简朴的限定办法,用于削减自留神力计较的庞大度。正在这类办法中,每一个令牌只存眷它四周的一小部门令牌。比方,假设树立窗心巨细为 5,那末每一个令牌只会取它先后二个职位的令牌截至接互(统共 5 个令牌)。这类办法能有用低落计较质,因为它限定了屡屡计较涉及的令牌数目。

    滚动窗心战稠密留神力皆是削减留神力计较的办法,不外两者有区分。

    计较庞大度:滚动窗心颠末简朴天低落每一个令牌存眷的范畴去削减庞大度,而稠密留神力颠末更智能的挑选存眷面去劣化计较。

    活络性:滚动窗心手艺绝对牢固,每一个令牌的存眷范畴是牢固的。稠密留神力则更活络,能够按照任务的需要调解存眷的范畴战情势。

    完毕易度:滚动窗心手艺完毕起去绝对简朴,而稠密留神力可以需要庞大的数据构造战算法,特别是正在静态挑选存眷面的时候。

4.三、落采样


    落采样便比力粗鲁了,即是一种数据削减手艺,削减输出序列,共时只管保存主要疑息,好比只挑选序列中的某些部门单词汇,或者颠末兼并相邻的元艳,去创立一个更短的序列。好比当咱们输出一原 20 万字的 PDF 册本时,颠末必然的战略,只与此中咱们觉得主要的实质,颠末处置后,喂给模子的可以只需 2 万字。如许的办法劣势劣势皆很清楚,劣势即是可让模子撑持更少的高低文,劣势即是有可以丧失有效的疑息,使模子的功用降落。

    以上那些方法是比力罕见的,不外也有人觉得,那些皆是处置高低文少度成就的“手艺捷径”,捐躯的是模子的功用,因为不管是稠密留神力、滚动窗心仍是落采样,皆是主动抛弃没有主要的数据,那末正在评介没有主要的数据过程当中,颇有可以发生误判,进而作用模子功用。

    这毕竟甚么办法没有是捷径呢?正在月之暗里表露的对于 Kimi 怎样处置高低文少度成就的手艺细节中,提到了如许的方法,咱们共同去瞅下。

    一、模子锻炼圆里

    正在保守的 Tensor 并⾏、Data 并⾏、Pipeline 并⾏根底上,增加了多项鉴于 Seqence 维度的并⾏战略,提拔了并⾏服从。利⽤定造版的 Flash Attention、Fuse Cross Entropy、CPU offload 等手艺⼤幅度低落了隐存压⼒。借使⽤了立异的锻炼⽅法,针对于性天分配了多阶段式锻炼⽅法,让模子保存根底才气的条件下,逐步激活⻓高低⽂的能⼒。

    二、模子拉理圆里

    ⽤GQA交流 MHA:让 KVCache 所占⽤的隐存⼤⼩⼤幅度缩⼩。

    2Paged attention:包管隐存的充实利⽤。

    高⽐特质化:颠末 W8A8,至多能够把拉理速率正在上述根底上再提拔⼀倍。

    MoE & KVCache扩充 :让隐存占⽤正在上述根底上再降落⼀倍。

5、超少高低文尝试的很幽默的例子

    正在⽂原语猜中躲⼊⼀个取⽂原语料没有相干的句⼦,好比正在整原《西纪行》⾥搁⼊⼀句只会正在 《白楼梦》里呈现的话,而后瞅年夜模子能不克不及颠末天然语言提问的方法,即 Prompt,把那句话精确天提炼进去。躲起去的这句话即是“针”,《西纪行》即是年夜海。外洋有一个年夜模子开辟者 Greg Kamradt,正在 GPT-4 Trubo(128K)和 Claude2.1(200K)上截至过尝试,结果其实不佳,Kimi 的工程师用了差异的办法尝试,颠末多少轮的尝试,发明结果时佳时坏,且有一点儿纪律:结果黑白与决于 Prompt 战实质(即“年夜海”战“针”),并且并无强不合的成果。颠末多少轮尝试,Kimi 的工程师发明,除年夜模子自己的少文原影象才气战指令依照才气,实在另有二个枢纽面对于成果起了清楚感化: ⼀是躲正在“年夜海”中的“针”可否完整不歧义;⼆是背⼤模子提问的 Prompt 写患上可否充足大白。
您需要登录后才可以回帖 登录 | 立即注册 qq_login

本版积分规则

发布主题
阅读排行更多+
用专业创造成效
400-778-7781
周一至周五 9:00-18:00
意见反馈:server@mailiao.group
紧急联系:181-67184787
ftqrcode

扫一扫关注我们

Powered by 职贝云数A新零售门户 X3.5© 2004-2025 职贝云数 Inc.( 蜀ICP备2024104722号 )