引言
Google前阵子发布的Gemini 1.5 Pro,是一个具有1M上下文窗口的LLM,它在处理大量信息时表现出色,尤其是在“大海捞针”实验中达到了99.7%的召回率。
在科技的浪潮中,每一项新兴技术都似乎预示着旧技术的终结。然而,当我们观察 RAG 和 long context,一个有趣的现象出现了:被大模型厂商认为即将被淘汰的技术 RAG,却被企业客户视为好用的新技术,其应用非常扎实也越来越广泛。
这种认知上的巨大差异非常有趣,本文将深入探讨RAG与Long Context之间的这场认知冲突,并试图揭示背后的深层次原因。
RAG 技术的价值
RAG技术是一种结合了信息检索和文本生成的方法。众所周知,LLM的信息来自互联网的公开数据,它并没有企业的垂域私域数据,而RAG技术可以通过把企业的知识库作为插件,从私域数据中检索相关信息,然后将这些信息放到LLM的context中,从而提高LLM具备企业私域知识问答的能力。
但 RAG 并不是完美的技术,企业的数据格式千差万别,需要一定的归一化,才能被很好地检索到。而且被检索到的也只是一些知识的切片,并非整个知识库,所以其产生的回答并不是基于对文本真正理解的基础上,而是对片面的知识的理解。
因此,RAG被一些LLM厂商视为一种过渡性技术,注定要被更先进的Long Context技术所取代。
Long Context 技术的潜力
Long Context 它能把整个知识库放到 Context 中,并让LLM进行回答。很好地解决了 RAG 的痛点。
由于LLM强大的理解能力,对企业数据的多样性支持也更好了。
而基于对全部知识库的理解,LLM回答的结果更加完善,更加智能。
这无疑是技术的一大进步。
然而,当下也有问题,现在的价格高昂,一次十万字的问答,费用就超过了1元,无法很难进行商业化落地。
认知差的形成
为什么被大模型厂商认为即将被淘汰的技术 RAG,却被企业客户视为好用的新技术?
每个人的注意力有限,我们往往只关注与自己息息相关的问题,这就形成了每个人独特的视角。
LLM厂商在看向未来,从长远看,long context 一定是未来。
推理成本都会指数性下降,虽然现在贵,在未来会100倍的便宜。
RAG 的应用场景,局限在知识问答,而 long context 的应用场景要多的多,比如陪伴场景的永久记忆,比如论文的全文理解和解读。
LLM企业,由于面向未来、资金充足,更倾向于采用Long Context技术;而企业用户,则更关注技术的实际应用效果和成本效益,另外 RAG 的数据和 LLM 分离较好,对企业来说是一种数据保护。因此更倾向于使用RAG技术。这种差异导致了对技术价值和未来趋势的不同认知。
技术普及的涟漪效应
技术的普及往往呈现出涟漪效应,从一小部分人开始,逐渐扩散到更广泛的群体。在这个过程中,技术的普及速度和认知的改变速度往往不同步。从RAG的普及来看,从技术的出现到应用,间隔了半年到一年的时间。
随着时间的推移,当Long Context技术的成本下降,应用案例变得更加丰富时,企业用户的认知也会随之改变,逐渐接受并采用这项新技术。
结语
技术的涟漪和认知差的形成,反映了技术发展和社会接受之间的复杂互动。这场RAG与Long Context的认知冲突,只是LLM应用中的一朵涟漪。我们依然处在LLM技术的早期阶段,作为技术使用者和开发者,我们需要关注这种动态变化,理解不同群体的需求和认知差异,以便更好地推动技术的创新和应用。
另外,非常值得思考的新话题
如何结合 RAG 和 Long Context,实现更好的结果?
这个话题的讨论和思考可以参考这篇文章
Towards Long Context RAG

后续讨论
来自 @shao__meng
RAG 和 Long Context 不是硬币的两面。
以下个人感受:
1. 企业对信息安全会更敏感,不想把全量原始数据传给 LLM,即使你的 Context 大到可以不考虑内容上限;
2. 企业的知识库,内容类型和数量往往都很庞杂,需要前置的筛选过滤整理,也就是 RAG 中的前置内容获取和提取的过程;
3. RAG 中的网络搜索也是信息获取的重要方向(参考 Perplexity... Good, 我好像没打错字)
4. RAG 中的前置内容获取和信息提取(文件 + 网络),形成知识库,是对 Long Context 更有效的信息输入;
5. RAG 中可能弱化的是向量数据库和嵌入模型(个人看法)