大纲:
有点不一样的长文本
上周 minimax-text-01 发布,把模型的上下文窗口扩展到了4M,在此之前,最大的 Google 1.5 Pro 的 2M。
本来下文窗口的提升并不是新鲜事了,但是偶然看到好友九原客的测试,注意到这个模型有个跟以前的长文本不太一样的地方:输出的文本特别长。

我自己打开海螺官网,把一本 83 页,五万多 tokens 的英文书 PDF 放进去,然后让它「把文件的全部内容翻译成中文」。
我记得以前模型的输出一般都不会超过一万字,而且还会因为输出太长,拒绝此类需求。
但是海螺什么废话都没说,就开始表演全书翻译,这么一翻译就咣咣输出了十分钟。
翻译停止的时候,是书的第 47 页,我用软件统计了一下,大约两万字符。

在上周发布的技术报告里,确实写了这次的模型使用了不同于传统 transformer 架构,
还说这是第一次大规模使用线性注意力技术,不仅让训练和推理效率提升,还让模型的上下文窗口有了新突破。
于是我去补课了一下线性注意力的前世今生。
为什么线性注意力是关键
在OpenNLPLab的一篇《高效大语言模型的前世今生》的文章中提到,业界其实一直都在研究对 Transformer 架构优化的路线:
Transformer 其庞大的参数量和计算资源需求使得训练和部署成本变得极高;同时,模型的数据和计算复杂度也带来了隐私和安全的风险。为此,研究者们在模型优化、压缩、加密和隐私保护等方向进行了探索,以寻求更加高效和可信的解决方案。高效的序列建模可以分为四大主要路线:
- 稀疏Transformer(Sparse Transformer);
- 线性Transformer(Linear Transformer);
- 长卷积(Long Convolution);
- 循环神经网络(RNN)。
而 MiniMax 的技术报告中提到他们最终的选择是Lightning Attention的线性注意力路线,并且这次的模型是线性注意力机制首次被大规模的部署:
我们的方法从选择最有潜力的架构开始,接着优化其底层的训练和推 理框架以确保其支持。对于网络架构,我们要求线性注意力——不仅理论上要合理,而且在实践中要高效,尤其是在处理长上下文的时候。 经过大量实验,我们选择了主要采用 Lightning Attention(Qin 等,2024b)的混合架构,这是一种线性注意力变体的I/O 感知实现(Qin 等,2022a) 。 在架构中,每七个 transnormer 块之后跟随一个带有 softmax 注意力的 transformer 块(Qin 等,2022a) ,并使用 lightning 注意力。 …我们展示了线性注意力机制首次成功的大规模实现。虽然线性注意力机制之前已经被研究过,但从未以如此规模部署过。
在这段报告里的引用文字中,频繁地提到了一个研究员的名字:Qin。
我去参考文献一看,看到了一连串的 Zhen Qin。

从 2022 到 2024,写了8篇线性注意力的文章。
这位 Zhen Qin 是谁?
勾起了我的好奇心。
Qin 的故事
正在我好奇的时候,一位 TapTap 的好友看到了我的公众号,跟我说其实线性注意力研究的专家其实就在 TapTap。
当时觉得很奇怪,为什么一家游戏公司要研究线性注意力。。
我去网上搜了确认,Qin 是在 2023 年去的 TapTap,而之前,在商汤。而商汤,懂的都懂,事情变得更有趣了。

于是我找到了 Qin,知道了他的名字叫秦臻。
他跟我聊了聊这几年做线性注意力研究的故事。
原来秦臻在商汤的时候,最早参与的项目是复现 GPT2,可以说是大语言模型在国内最早期的研究者之一了。
在商汤的时候,Leader 很鼓励大家做研究,他在几个方向里选了线性注意力,没想到一研究就是好几年。
23 年的商汤,内部有太多的变动,他就离开了。
在聊了一圈大大小小的公司之后,他选择了去 TapTap,一个很多人不太理解的选择。
我也很好奇,线性注意力这么重要的研究方向,应该去的是大模型公司或者大厂。
他却说很多人不太相信这个方向,反而是 TapTap 算法团队里有个研究小组,这个小组会给他提供一个自由发挥的空间。
TapTap 的算法研究小组
TapTap 本质是家游戏公司,为什么要养一个小组研究大模型的技术?
秦臻又给我讲了在 TapTap 的这个有点特别的团队。
这个团队的 Leader 叫李昀泽,2020年就加入了 TapTap,这个部门负责公司的增长和收入,属于给公司赚钱的部门,可能也正是因为这点,才有实力养活一个花钱的研究团队。
在 ChatGPT 出来之后,李昀泽觉得虽然公司不是大模型公司,但是公司的认知一定要跟上这波技术浪潮,于是开始积极招聘一些有模型训练经验的人,来这里做研究和探索。
虽然线性注意力这样的技术,在TapTap内部,其实没有太多应用机会,但是他说在这种技术革命的混沌期,就是需要让有能力的人延伸自己的兴趣去做,才能有创新的可能。
公司其实对这个事情的结果没有任何预期,只是单纯相信这个阶段需要有创新的环境和氛围,需要能够跟业界对话,因此中间的研究工作也全都公开发表出去了。
为了让大家能安心探索,团队还制定了一条制度:无论产出如何,都不会存在m-绩效。
秦臻说,这个宽松的环境对技术创新来说是非常重要的,这也是他能持续研究持续发表工作的基础。
虽然 TapTap 没有足够的卡去做大模型的研究,但是看到 MiniMax 把线性注意力技术大规模落地,他和整个团队都是非常高兴的,这也属于一种遥相辉映的回报。
展望未来
每一个技术的突破,背后都是研究技术的人。
就像小草需要在宽松的土壤里才能发芽一样。
研究技术的人需要一个相对宽松的环境,才能自由生长。
对于创新的研究来说,激进地制定 OKR 很容易适得其反。
开放的学术交流,开源的模型生态,以及团队有自由度的环境,都至关重要。
在通往 AGI 的道理上,衷心希望,有更多的创新研究是来自这片土地。
参考资料:
高效大语言模型的前世今生
MiniMax-01: Scaling Foundation Models with Lightning Attention