职贝云数AI新零售门户

标题: AI大模型实战——模型核心技术目的:如何提高上下文长度 [打印本页]

作者: KOsV 时间: 3 天前
标题: AI大模型实战——模型核心技术目的:如何提高上下文长度
@ 目录

一、背景

二、为什么超长上下文很重要

招聘场景，在系统上传 50 份简历，每份简历都是⼀个 PDF⽂档，50 个简历上传之后，提要求，⽐如要具有⼀定的英语⽔平，有⽐较强的技术背景等，智能助⼿在阅读完这 50 份简历之后，⻢上就给出来了 Top5 引荐，最后 Top2 的两个⼈刚好就是最后实践被录⽤的。

再比如打⻋发票整理，直接上传 50 个发票，智能助⼿可以⾃动整理你过去⼀个⽉的⾏程到底是什么样的，直接整理出来⼀个报销⽂档。

⼜或者有好⼏篇英⽂论⽂，你想做⽐较、分析，智能助⼿可以利⽤它的⻓⽂天分⼒，很好地完成义务。

三、为什么会有上下文限制

3.1、计算资源限制

3.2、内存耗费

3.3、宽带限制

四、如何支持更长上下文

4.1、稀疏留意力机制

4.2、滑动窗口

计算复杂度：滑动窗口经过简单地降低每个令牌关注的范围来减少复杂度，而稀疏留意力经过更智能的选择关注点来优化计算。

灵敏性：滑动窗口技术相对固定，每个令牌的关注范围是固定的。稀疏留意力则更灵敏，可以根据义务的需求调整关注的范围和形式。

完成难度：滑动窗口技术完成起来相对简单，而稀疏留意力能够需求复杂的数据结构和算法，尤其是在动态选择关注点的时分。

4.3、降采样

在传统的 Tensor 并⾏、Data 并⾏、Pipeline 并⾏基础上，添加了多项基于 Seqence 维度的并⾏策略，提升了并⾏效率。利⽤定制版的 Flash Attention、Fuse Cross Entropy、CPU offload 等技术⼤幅度降低了显存压⼒。还使⽤了创新的训练⽅法，针对性地调配了多阶段式训练⽅法，让模型保留基础才能的前提下，逐渐激活⻓上下⽂的能⼒。

⽤GQA 交换 MHA：让 KVCache 所占⽤的显存⼤⼩⼤幅度缩⼩。

2Paged attention：保证显存的充分利⽤。

低⽐特量化：经过 W8A8，最多可以把推理速度在上述基础上再提升⼀倍。

MoE & KVCache 裁减：让显存占⽤在上述基础上再下降⼀倍。

五、超长上下文测试的很风趣的例子

欢迎光临职贝云数AI新零售门户 (https://www.taojin168.com/cloud/)