FlowSpeech：全球首个

而我们针对一个小痛点，做了一个小产品，叫 FlowSpeech。

缘起

为什么要做这样一款产品呢？我先来跟大家分享一个真实的故事。

ListenHub 在 5 月上线后，我们很快有了一万的注册用户。

在所有的用户中，年龄最大的一位，是一位美国老人。

有一天他在网上看到了 ListenHub，但是不太会用我们的软件，就写邮件问我，有没有使用教程。

我当时第一反应是，我从未想过给 ListenHub 写教程，因为它太简单了。

在 AI 圈子里都觉得过于简单的产品，在大众眼里依然是复杂得无从下手。

于是我回复他的邮件，说我们目前还没有教程，但是我正在写，写好了发给您。

我立即打开 Notion，写下了一份最简单的教程，然后发给了这位美国老人。

他看完教程，终于把我们的产品用了起来。

后来我们邮件又往来了数次，我也逐渐了解到他的故事。

他在 1957 年参军，今年应该已经有 80 多岁了。

长期的肺纤维化疾病和数次的中风，已经让他失去了说话的能力。

但这并没有打垮他，他组建了一个数万人的线上病友社区。

他把 ListenHub 当作自己嘴替，用 AI 生成播客内容，在社区里输出，帮助病友。

播客很好，但也只是万千表达方式中的一种。

于是我们决定做一个通用的 AI 嘴替，可以读网页，可以读小说，可以做相声，还能读英文论文。

让你的 AI 嘴替，随时替你说话。

这就是 FlowSpeech 要做的事情。

FlowSpeech：全球首个书面语转口语的TTS

其实今天已经有茫茫多的 TTS 服务了，我们为什么要自己做一个呢？

究其本质，口语和书面语，是两种完全不同的语言表达形式。

写出来的文章，不一定适合口播，而说出来的话语，也不一定适合写成文章。

像论文、新闻报道、AI 的回答，这些文字都是为了让人看，而不是为了让人读。

而现在市面上所有的 TTS 文字转语音服务，做的事情就只是把文字按字面的发音读出来。

这就好比演讲，在演讲的时候绝不能拿PPT照着念，而要用自己的话流畅地演出来才可以。

这就是 FlowSpeech 的原理。

FlowSpeech 是全球首个能把书面语转成口语的 TTS。

一个说话有人味儿的 TTS。

这么说有点抽象，让我们来用耳朵感受吧。

FlowSpeech 案例一：彻底去 AI 味儿的口语

平时 AI 回答的内容，经常会使用 Markdown 大纲格式，这种 AI 味儿十足的格式，非常不适合朗读。

比如这段话

传统 TTS 的效果，只能按照着字面发音，生硬，机械，不看文字的话非常影响理解。

再来听听 FlowSpeech 的效果，生动活泼，语句通顺，衔接自然，不看文字也能很轻松理解这段话的含义。

这对比是不是立竿见影！

这就是 FlowSpeech，正如其名字的含义：将文字转换为流畅的口语。

FlowSpeech 案例二：用中文口语读英文论文

我们平时读论文的时候有两大痛点：

第一个痛点是论文一般都用英文，读起来要各种翻译插件开着，而且比读中文速度要慢好几倍。

第二个痛点是论文的语言风格，其实是非常严谨的，严谨就意味着读出来很难听懂。

我们以 DeepSeek R1 的论文为例试一下。

传统 TTS 的效果，这是在念什么天书吧。。。

再来听听 FlowSpeech 的效果吧，让人想起亲切的李沐老师，耐心地给你讲解论文，又准确又好懂。

当然，FlowSpeech 也支持读英文，我们也来听一听英文的效果

FlowSpeech 的案例三：

除了读AI内容、读论文，我们也经常把有声读物作为一种放松消遣的手段。

读小说是有声读物里最常见的场景，但小说的文字有自己的表达风格，并不是为了朗读而写的，我们来看看这段文字。

传统 TTS 的效果，把这么好看的小说读得非常劝退，令人索然无味。

而 FlowSpeech，把小说里的文字，加上适当的口语润色，说出了一种说书人的味道。

除了上面三个典型场景，FlowSpeech 还可以：

用自己的声音给家里小朋友读睡前故事

用 AI 嘴替来一段相声，夸自己的女朋友变瘦了

让 AI 写个吐槽他的脱口秀，念出来发给他

实际应用的场景超级多，更多场景等待你的发现！

脱口秀

FlowSpeech + 声音定制 = 你的专属 AI 嘴替

如果你已经成为 ListenHub 的 Pro 会员，我们可以为你定制声音。

你可以在 FlowSpeech 里用自己的声音来读小说、读论文、做播客、做短视频。

从此，让你的 AI 嘴替为你发声。

从此，让你的创作效率提升10倍。

FlowSpeech 技术特点

为什么 FlowSpeech 相比传统的 TTS 的效果会这么好呢？

这源于它的几个技术特点：

上下文感知，通过对上下文的深度理解，让模型不仅能读出来，还能真正让内容能听懂

多模态支持，基于多模态模型，不仅能读文字，还能读图片、读PDF文稿

智能剪裁，通过智能感知，可自动去除所有不适合朗读的内容，比如广告、代码块、无意义的乱码等

此外，FlowSpeech 还支持流式响应，最快三秒开读，合成1000字的内容，也只需要10秒种。

能有这样的技术特点，源自于我们在做 ListenHub 的过程中，产品和技术团队对声音、对模型、对内容的深入的理解。

当然，也离不开 ListenHub 用户对我们产品积极反馈，在此特别感谢大家。

FlowSpeech 适合谁用？

FlowSpeech 有人味儿的口语表达能力，让它成为以下人群的理想工具：

内容创作者： 将公众号文章、自己的知识库，转化为自然口语化的音频，节省大量录音和剪辑时间。不管是做播客还是短视频口播，都是效率的百倍提升。

有声书爱好者： 将小说、散文等文学作品转化为富有表现力、接近真人讲述的有声书，从未有这么好的听书体验。

企业用户： 用于制作内部培训材料、产品介绍、客户通知、财报解读等语音内容，把枯燥的内容用人话讲出来，让客户和员工一听就懂。

应用开发者： 为自己的内容都加上音频版本，让老年人和儿童也能方便地获取信息，为用户提供更高的价值。

教育工作者： 将课件、教材、学术论文、技术文档转化为易于理解的口语讲解，让学习更高效、更沉浸。尤其适合制作课程音频、知识播客。

简单来说，FlowSpeech 就是你的 AI 嘴替。

任何需要文字转语音的场景，FlowSpeech 都能带来革命性的体验提升。

FlowSpeech 如何使用？

直接在浏览器访问 Listenhub.ai 即可在网页内直接使用。

iOS 下载：在 App Store 搜索 ListenHub 即可，FlowSpeech 下周上线到 App 里。

安卓下载：安卓版开发中，即将上线。

还有…API 吗?

很多朋友问我们，ListenHub 里的声音，能不能做成 API，接到自己的产品里？

我平时用 ChatWise 和 Cherry Studio 的时候，经常想让我们的 AI 主播把回答读出来，而今天，终于有可能做到了。

对，我们即将推出 FlowSpeech 的 TTS API 服务，敬请期待。

限时免费体验：

FlowSpeech 上线后，为了方便大家体验，我们和硅基流动的朋友们联合发布了限时免费体验活动。

在 8月 7 日到 8 月 13 日之间，大家可以限时免费体验 FlowSpeech。

其中的部分音色使用了硅基流动的声音 API，大家可以尽情享用。

在此，特别感谢硅基流动的朋友！

写在最后

为什么在行业都在吹概念，追模型，卷 Agent 的时候，

我们选择花一点时间做一个这样的小产品呢？

作为 AI 应用公司，我们当然希望自己成为天空中的独角兽。

但做产品的本质，是帮助一个个真实的人。

在我们帮助了一位80岁的老人之后，我们发现这个产品也许每个人都需要。

谁不想要一个 AI 嘴替，随时替自己说话呢？

这就是 FlowSpeech，全球首个书面语转口语的TTS。

一个说话有人味儿的 TTS。

MarsWave AI 团队 2025年8月1日