AI 搜索选哪个？16家AI搜索产品横向测评

引言

距离《AI 搜索，一次讲透》文章发布已经快一个月了，AI 搜索赛道依然火热，各款产品都在努力优化，时间到了6月，非常好奇各款产品表现如何，就准备帮助读者测一测。

本来准备狠狠测几轮的，结果第一个Query刚测完，结果就已经高下立判。

本文将如实记录这一轮的AI搜索测试，并在未来的第二轮中剔除明显水平很差的选手，节省精力和时间。

本文不是权威测试，只是为了个人日常选择AI搜索所做的辅助选择。为了中立客观，本文对所有的搜索结果进行了截图保存。

本文没有接受任何赞助，不接受任何的删帖请求，但接受开放地交流讨论，请大家心态平稳，实事求是。

本轮入围选手

国际巨头白月光，4家， Perplexity、OpenAI ChatGPT、Google Gemini、Microsoft Bing Copilot

国内大模型厂商，8家，月之暗面 Kimi、字节跳动豆包、MiniMax 海螺、智谱 Chatglm、01万物万知、腾讯元宝、百度文心一言、百川智能百小应

国内AI搜索应用，3家，昆仑万维天工AI、360 AI 搜索、秘塔 AI 搜索。

AI搜索创业团队，1家，ThinkAny

入围说明：

这里有一半是AI助理，并非单纯的AI搜索，因为本质上AI搜索是一个很基本的功能，而且技术上来说也是一套，所以放在一起测试没有任何问题。而且AI助理的搜索结果未必就比专业的AI搜索差。

有些品牌有更好的选择，比如 Google 的搜索和Gemini其实是两款产品，百度的搜索和文心一言也是两款产品，但是因为灰度等原因，我无法触发AI搜索，所以就用他们的助理代替。

排除了 devv.ai 等特别垂类的搜索，因为对于通用Query，垂类搜索和通用搜索相比明显弱势。

本轮的测试方法

Query 选择的原则：

Query 所对应的答案应该具备一定的实时性，答案不在大模型本身的知识库里，必须通过搜索才能获得答案

Query 所对应的是一个特定人群的需求，因为没有一个人可以代表另一个人群，这里选择我自己所属的典型人群，AI早期接受者，我认为这个人群和AI搜索的目标人群是高度重合的

Query 有一定难度，搜到的内容有多种可能性，需要模型具备一定的理解能力和推理能力才能回答出正确答案

Query 所对应的结果应该有明显的评判标准，应该是本文读书所熟悉的，且可以通过公开资料进行验证的，避免一个人对结果的评分过于主观

结合以上几点，第一轮的 Query 就是：

橘子汽水铺是什么

这个 Query 除了满足需求之外，还有一些巧妙的点在于，它的信息源主要来自四个地方，Notion、Quail、Substack、微信公众号。同时覆盖了国内、国外、大平台、小站点，各家产品能同台竞技，各有发挥。同时它又是一个AI领域的关键词，在其他领域意义不大，所以人群匹配度高。

评分标准：

能正确理解 Query 所指的内容是什么，加一分

搜索结果准确，没有幻觉，加一分

搜索结果在准确的基础上，信息充足，结构清晰，加一分

AI 助理相比AI搜索会额外多出一个判搜的环节，有几个AI助理产品产品在这里做的很差，所以使用了多轮Prompt进行引导搜索，但由于本文主要关注搜索结果，而且AI助理并未宣称自己是AI搜索，所以这里对判搜错误不扣分。如果你关注端到端体验，非要扣分的话，可以按0.5分来扣。

测试结果

0分：豆包、秘塔AI、天工AI、文心一言、Bing

1分：万知、Gemini、

2分：智谱、海螺、kimi、元宝、thinkany

3分：Perplexity、ChatGPT、360 AI 搜索、百川

看到这个结果，说实话还是蛮意外的，具体的截图和分析放在后面了。

再次重复重要的事情：

本文不是权威测试，只是为了个人日常选择AI搜索所做的辅助选择。为了中立客观，本文对所有的搜索结果进行了截图保存。

本文没有接受任何赞助，不接受任何的删帖请求，但接受开放地交流讨论，请大家心态平稳，实事求是。

附录：测试截图和简单分析

0分组，无法理解 Query 所指，都是0分，没什么好说的：

豆包，信息源太受限，找不到正确信息，0分。

秘塔，找到了很多的信息，但是组合在一起就没有一个对的，是秘塔这个技术路线的典型问题了。用RAG解决幻觉的同时引入了更多的幻觉，这个0分不冤。

天工，和豆包一样找不到任何有关信息，但比豆包要简洁一些，0分

文心一言，内容空洞，引导搜索也没用，0分。

Bing 真没想到连 Bing 都是0分，它是最早做AI搜索的，以微软的技术水平，做到这个样子，是非常非常差的。它甚至没有理解我要搜的是「橘子汽水铺」而不是「橘子汽水」，严格来说的话，可以给负分滚粗。本组最差。

1分组，只是理解了 Query 所指，结果都很差：

万知，判搜出错。引导联网后搜索范围很小，只拿到了小宇宙的信息，总体是比较差的结果。

Google Gemini，信息量很小，第二条内容甚至出现了幻觉，如果考虑到这是 Google 的产品，其实一分都不应该给

2分组，结果准确，没有幻觉，美中不足的是结果的呈现形式：

Kimi，找到了多个可能的意向，但是在第三个回答正确，虽然很简单，但是准确。

海螺，一样是拿到了多个可能性。比 kimi 好一点的是正确答案排序靠前

智谱，判搜错误，但是引导搜索后拿到了正确的结果，结果比较简单，但是准确。

元宝，搜到了相关信息，并预测了完整的意图，提供了较为丰富的结果，但是结果的质量不够准确，比如创始人的信息没有拿到很扣分，严格来说的话，可以给到2.5分

ThinkAny，给出了准确的结果，结构化也不错，第三条的信息会造成一定的用户混淆，但是它使用了「还可能」的表述方式，所以并不算错，可以给到2.5分，在这组里是最好的结果了。考虑到是个极小的创业团队的作品，已经是非常不错。

3分组，结果准确，信息丰富，结果清晰。

Perplexity，信息准确，采用总分结构，且对内容方向的几个概括非常到位，个人给出满分，本组第一。

百川百小应，判搜错误，在引导之后给出了准确和丰富的结果。没有像 PPLX 那样使用大的方向概括而是选择了几篇文章进行分点总结。个人还是更喜欢 PPLX 的结果一些。考虑到这是一款新产品，能做到这个程度还是蛮意外的。

360 AI 搜索，给出了准确的内容，并且展开了几个非常具体的话题，使用总分总结构，较为清晰。

ChatGPT，判搜错误，引导搜索后回答正确。内容准确，详细，内容格式方面不如 PPLX 好，所以要稍差一些。