ChatGPT 越过山丘之后，再来谈谈 LLM 应用方向

引言：

ChatGPT 从去年11月以来，一直在野蛮增长，直到6月增长见顶。

半年以来有海量的关于AI的想法，中量的试验性产品，以及少量的让人记住的每天使用的产品，以及独一无二的爆款 ChatGPT&API。

现在爆款已经越过山丘，生态的每个人都在疑惑：

半年了为什么再没有其他爆款产品出来？

是不是当前技术遇到了无法不可逾越的鸿沟？

作为现在有些迷茫的开发者，之后的方向应该是什么？

这篇文章会通过这半年来多的持续关注的信息思考和一线开发的经验，试图回答这些问题。

本文目录：

ChatGPT 停止增长

ChatGPT 作为一款产品合格吗？

GPT4 当前的技术瓶颈

回归产品的本质

一个模型还是多个模型？

Prompt，LLM 的信息通道

有了模型和通道之后，开发者能做些什么？

ChatGPT 停止增长

ChatGPT 的网站流量，在5月几乎增长停止，仅增长 2.8% ，6月则开始下降。

在用户最多的美国区，网站排名从48名降到了64名。

尽管官方说 ChatGPT 的流量下降是因为推出了 iOS App，但是 iOS App 在 6月的下载量也开始下降，已经跌出了美国应用总榜单前十，在畅销榜也已经排不上了。

再看上线日和一个月后的续费日的畅销榜排名，从40左右跌到了70左右，可见续费忠诚度也并不太高。

ChatGPT 作为一款产品合格吗？

ChatGPT的产品价值主要是由大语言模型技术所提供的，其次是对话的交互让大家和LLM的沟通门槛降低（了一些）。尽管其技术是全世界最先进的，但界面简单到极致，甚至半年了都几乎还是一个样子，本质上只是自家 API 的套壳，但由于 ChatGPT 的模型本身就是以对话形式作为训练目标的，也可以说是技术自己选择了产品形式。

Sam Altman 自己也承认 ChatGPT 是一款 horrible 的产品。

从数据表现来说，ChatGPT 的人均日使用时长是8分钟，甚至不如 Twitter。ChatGPT 的四周留存是 35% 以上，并且四周之后的下降非常缓慢，证明是一个低频高长留的产品，并不会像抖音这类时间黑洞挤压太多现有应用的空间。

另外 Sam Altman 已经表示，OpenAI 除了 ChatGPT 并不会开发新的产品，因此看起来「做应用层」不是 OpenAI 主要考虑的事情。

因此，创业者在应用层面的空间仍然是巨大的。

从竞争方面，OpenAI 的插件系统并不算成功，使用量仅限 Plus 用户，Sam 也说浏览模式之外插件并没有找到 PMF。所以不太需要担心应用被ChatGPT吃掉。

从盈利层面，OpenAI 作为行业标杆，选择了用接近成本价的价格来卖API，让API很难成为一个好生意。也让应用层的成本得以保证。

从交互层面，对普通人来说，GUI 比 LUI 要好用得多，比如订酒店这件事情，亲自看看图片和评价通过几个点击就可以了，打字输入指令反而是更繁琐的操作。

GPT4 当前的技术瓶颈

ChatGPT 3.5 和 GPT4 本质是去年就训练好的模型，由于涉及到政治舆论压力 GPT5 并未开始训练，而经过这半年多开源社区和其他闭源组织发展情况来看。我们已经能确定的说 GPT4 就是一代技术的最高标准了。那从 GPT4 当前的技术瓶颈，也就是所有LLM当前的技术瓶颈。

幻觉

GPT4 的准确性大幅提高，体现在做题和写代码方面，具体可看前文
💥
《GPT-4 ，通用人工智能的火花》论文内容精选与翻译。
但是幻觉问题依然不可忽视，幻觉一般是体现在某些方面的训练语料不足的时候，模型会胡编乱造一些内容。虽然错误内容只占一小部分，但是混杂在其他真实内容里，并用流畅的句子写出来，人类是很难鉴别的。
通过预训练学习更加全面的预料，能极大的改善幻觉，预训练完成后通过监督学习则改善有限。所以幻觉问题在GPT4训练完成的那一刻就已经确定了，只能等到 GPT5 来改善。
解决幻觉所需要的数据，大量存在于私域，并非通过公开的爬取可获得，需要全社会一起合作才有可能，但是这种合作相当于把私有数据公开，公司并非圣贤。

信息滞后

GPT4 训练的数据截止到2021年9月，现在已经是23年7月了。这两年的信息确实是非常可怕的。中间所空缺的信息就会滋生幻觉。人类依靠信息做出判断和控制，新信息的价值是超过旧信息的。
其他模型的信息滞后问题要好不少，很多2023年才训练的模型，信息至少是到了今年，但这些模型往往也会参考 GPT4 的结果，这样某种意义上就构成了幻觉循环。
还有一个方法是通过连接搜索引擎或数据库来弥补实时性问题，这相当于失忆两年的人，根据几百字的新闻简报来还原故事，能有改善，但是有限。

成本

GPT4 至今是很难申请的，3.5 倒是在6月的时候已经基本满足了需要（微软审批了几乎所有人的申请）。Sam 说今年最大的目标之一就是有足够的资源，让大家都用上 GPT4 。
如果 OpenAI 都搞不定资源，其他家公司更是不可能搞定的，这本质上是算力的问题，Nvidia 在努力生产了，但是生产速率是恒定的，未来两三年都能计算出来。
国内的算力问题更加严重，就不用多展开了。
GPT4 的价格居高不下，很多个一开始用 GPT4 的产品，最后都不得不回归 3.5。
总之可能半年到一年内，大家还是主要用 ChatGPT 3.5 水平的技术，能做任务调度会有一定优势。

同质化

ChatGPT 是爆款，但它是免费可用的，其结果是让其他的模型就生活在其阴影之下。
Claude 的模型也很棒，但是它的 API 申请难度几乎和 GPT4 不相上下。
单纯达到 ChatGPT 水平，已经不具备竞争力了。前几天融资了 13 亿美金的 Pi，宣布其模型已经超过 ChatGPT了，但是它的设计很优雅的产品，在 App Store 总共被下载了 3 万次，非常可怜。
所以不要再做 API 套壳了，也只有在有区域限制的地方，还能赚一小波差价。

这些瓶颈背后的技术瓶颈：

GPT4 已经使用了 MoE 架构，使用多模型堆叠，并在8个模型中选择一个进行输出。

使用多模型堆叠而不是一个统一模型，某种程度上说明在数据、算力方面已经遇到了瓶颈。

这个瓶颈可能是数据、算力、金钱，这个瓶颈可能比官方宣传的安全性更可能是GPT5未开始训练的原因。

回归产品的本质

产品就是为了满足用户需求而生。有的产品是从现有需求中诞生，有的产品诞生时同时带来了很多需求。但其本质都是为了满足需求，而满足需求就是「为特定的人群提供价值」。

因为人的多样性，没有一款产品能满足所有人的需求，因此不同产品可以服务不同的人群，提供差异化价值。

刚刚提到 GPT4 有 4个瓶颈，幻觉、信息滞后、成本、同质化，如果你能在任何一个瓶颈上有所突破，就可以提供差异化价值。

幻觉，通过私有化数据来解决一定的幻觉问题，虽然不能全部解决，但只要有明显提升，依然能跑出垂直领域的优势产品。

信息滞后，通过搜索和数据库补充信息，使用调度策略来查询自己的信息和模型信息，

成本， GPT4 依然昂贵，尽管 ChatGPT 3.5 已经是成本价，但也是有成本的，通过 cache 重复 query 可以进一步降低成本，配合模型调度策略可以仅在需要时才调用 GPT4。

同质化，ChatGPT 的模型看似全知全能，其实定位是「工作助理」，理性、安全、无情感。如果你有一个和ChatGPT定位不一样的垂类模型，能满足其他人群的需求，就能提供差异化的价值。

一个模型还是多个模型？

模型最终是为了产品应用而存在。虽然行业里大家天天把AGI挂在嘴边，但是去做产品的时候，获取用户的时候，拿投资的时候，还是得讲应用。

回到本质，看似全能的 ChatGPT 本质上也不过是个工作助理的垂直应用场景模型而已。过去半年，几乎所有的大模型都在朝着这个方向演进，蒸馏、刷分、PR，是件挺无聊的事情。

人是复杂的生命体，人或者的目的不仅是工作，除了工作助理的方向，人类还有很多的需求，情绪的，情感的，娱乐的，幻想的，这些方面 ChatGPT 做的都不好。

明明人类每天花时间做最多的事情是内容消费，为什么一定要集中卷生产力呢？

在中国愿意为了生产力付费的人有多少呢？

如果 HER 里的 AI 只能收发邮件、安排行程，还会有后面那些故事吗？

所以在应用方向相对垂直的大模型，其应用空间可能更大，可以获得的用户更多的喜爱。

但是训练这样的模型，所需要的数据是比工作助理要更难获得的，比如情感AI，所需要的数据是有情感的甚至有些私密的多轮对话，这样的数据书本里没有，公开网络里也没有。

注意这里说的垂直并不是指有很多个垂直大模型，每一个都只在个垂直领域的比较擅长，而是指一些大模型在某些垂直领域的应用比其他模型要更好。这两点有本质的区别。

Prompt，LLM 的信息通道

LLM 将世界上的文本压缩到一个隐性空间里，这个空间的数据已经远远超过人脑的容量（仅100种语言的本身的信息量已经超过人类个体）。面对如此大的信息量，无法直接进行信息传输。

产品要满足人的需求，要把 LLM 的价值传递给人，就需要建立一个通道，这个通道就是 Prompt。

而 Prompt 就是这个通道。Prompt 不是一句话，而应该包含至少CRE三要素：

Context 场景

Rules 规则

Examples 示例

未包含这三部分的 Prompt，所能传输的信息质量很低，随机性很大。就好像老板提了一个模糊的目标，抑或是像用户提了一个模糊的需求。产品经理只有去理解目标和需求的场景，了解内部的外部的规则，通过实际场景里的例子来进行对齐，才能交付一个好的产品。

写 Prompt 是一种需要学习技巧的智力活动，但大部分人是很懒惰的，并不可能每次都写 Prompt，于是就衍生出了几种方案：

把上文直接作为 Prompt，LLM 的原始模型就是预测下一个词，文字接龙是最自然的场景，在 ChatGPT 出来之前，LLM 的最大应用场景就是续写，续写只需要把上文作为 Prompt ，就可以很好地完成任务了。但写作不是人类最常用的沟通形式，要完成更复杂的任务，就需要其他方式了。

Prompt 收集站，不会写没关系，已经有大神写好了，收集起来直接copy 即可。最初大家用 twitter 分享，用 GitHub 整理。但是发现这样也不易查找，于是衍生出了 flowgpt，snack prompt 等网站。不过这类网站所收集的 Prompt 也都是参差不齐的。喜欢用 API 套壳工具的早期接受者，最喜欢这种形式，不仅可以快速copy，还可以稍作修改，为自己量身定制。

打包成 Bot，把场景、规则、示例打包到接口里，用户在这个 Bot 里只需要说一句话，接口在把这句话和CRE一起拼起来，和模型进行交互。ChatGPT 本身就是一个 Bot，它的 Prompt 里有一句大家非常熟悉的： You are a helpful assitant. ChatGPT 的模型本身就是以对话为目标的，所以也选择了对话这种形式，恰好对话也是人类个体之间交互最自然的模式。

训练到模型里，模型本身只是个文字接龙，但是通过学习足够多的「指令-结果」形式的示例，会泛化该场景下的行为，以前需要说很多CRE才能完成的事情，模型可以通过训练学会，并且你只需要说一句指令，模型就能给出不错的结果。所以你在用 ChatGPT API 的时候，即使不写完整的 Prompt，也是可以完成很多任务的，只要这些人物是 ChatGPT 里训练过的。

把API和Prompt做到应用里，对于用户来说，并不需要也不想要知道这些复杂的东西。

用户想要的东西很简单，【点一个按键，并得到结果】
如果结果超过了用户预期，用户会把好东西【分享给朋友】
如果结果给用户解决了问题，用户甚至愿意【付钱】
所以这就是应用层要做的事情，做一个 LLM 的 Home 键，一键传递价值。

训练自己的模型，应用层虽然可以解决特定场景下用户的问题，但是我们刚刚也说了，这些场景都是基于 ChatGPT 或者其他模型的 API，这些 API 里已经通过训练内置了很多场景的 Prompt 。如果你的应用场景恰好在这些 Prompt 里，恭喜你可以直接用。如果你的应用场景不在里面，甚至你的 Context 和 ChatGPT 都是有冲突的，那要么让 OpenAI 训练进去（你得像可汗学院那么有影响力），要么就只能训练自己的模型了（你可以买到这样的服务）。

无论是哪种方案，他们最终都是通过变相地组合 CRE，建立一个通道，用通道来传递价值，满足需求。

有了模型和通道之后，开发者能做些什么？

LLM 是人类语言的集合，我们不妨把 LLM 看成人，来看看我们可以用语言文字来做些什么。

提供单个问题的解决

代表应用：Google （Bard），New Bing

我们遇到很多一次性问题的时候，问一下身边的人或看一下知乎上已经有的问题，就能获得回答。

这些问题是离散的，好用的搜索引擎比LLM本身更适合此场景，搜索引擎也在集成LLM，会拓展这个场景。

作为创业者来说，做一个搜索引擎绝非易事，做出来之后，也很难通过这种低频离散的场景收回成本，可以直接忽略此方向。

另外此类场景有个很致命的问题是模型的幻觉，一些论文也论证了，通过接入网络信息，会减少一些幻觉，但效果有限，而且网络内容未必就是对的，这样会引入新的幻觉。

提供单个任务的解决

代表应用：ChatPDF，Tome，Jasper

在一个大厂看不上的领域里深耕，靠自己的专业场景、独特渠道和深入的 Dirty work 建立的小壁垒。做得足够早，当用户看到 PDF 或者 PPT 的时候就能想到你，并且你做的交互比对话框更简单好用，基本就可以活得不错了，但发展上限自然也不是很高。

提供垂直领域重复任务的解决方案

代表应用：Github Copilot，Notion AI

在垂直的应用场景里，对特定用户群体进行专属的设计和优化，使用对话并非最合适的交互，如写作或者代码，在原有的编辑器里，前文本身就可以作为 Prompt，再通过指令和结果反馈优化模型，达到在一个领域内的最优解。

作为创业者来说，如果之前有行业基础的深耕，非常适合进行此类应用的延伸，之前深耕所积累的经验，也会为业务快速开展提供宝贵的先机。

在做这类应用时， Alan Kay 说过的一句话，特别适用于这里

认为解决最好的方法是改变问题的 Context （陈述背景）。

这部分考验的是开发者对任务的 Context 的理解，属于非常底层的东西。对场景的足够理解，并把这种理解写到 Prompt 里，就会产生不同的结果。每个人对社会的 Context 理解不同，所产生的 Prompt 不同，其结果就有高低之分。

提供情感幻觉

代表应用，Character AI，Chai

既然大模型的幻觉问题无法解决，为什么不利用幻觉来满足人类的幻想呢？

在 CAI 和 Chai 里，大模型的幻觉反而成为了优势。

人们在这里满足自己对不同人格角色的浪漫关系幻想，探索和各种AI角色对话的走向。

在现实中你永远无法做到这些，大部分现实中的人类，就像 ChatGPT 一样无聊。

目前的应用里，这些AI角色还都是以参考已经存在的角色为主，未来应该会有纯粹地AI塑造出来的角色，进一步满足人的所有幻想。

提供情绪问题的解决

代表应用：Pi

ChatGPT 本身的人设是冰冷的，比如你让它相信你高考能成功，它会说它只是一个语言模型，不能预测你的高考成绩。

ChatGPT 还是被动的，它几乎不会主动发起什么话题，多轮聊天主要靠用户自己，人均的对话轮数也是少的可怜，大部分人根本都聊不下去。

Pi 的出发点是能像人类一样支持你的AI，它能提供情绪的支持，并且有一些Fun的属性在里面。很多人和 Pi 聊过之后，感觉都比心理医生更加有效，并且还让自己的孩子去和 Pi 聊。

目前这类产品对模型的要求比较特别，一般开发者可能无从下手。

提供娱乐和内容消费

AI 生成的内容目前已经开始在图文短视频平台变得越来越多，但专门收录AI内容的产品或社区还很少。

AI 游戏、AI互动小说，也是产消一体的契合场景。

此外高效可靠的视频生成应该是个临界点。

AI直播带货

数字人目前还在一个比较尴尬的点，非实时的数字人价格很低，效果不够好，实时数字人的技术问题还在解决中。

就像直播带货一样，AI真人带货也可以触发人类的镜像神经元，激活人类的模仿欲望，所以技术问题解决后，一定会是个热门的方向。