而我们针对一个小痛点,做了一个小产品,叫 FlowSpeech。
缘起
为什么要做这样一款产品呢?我先来跟大家分享一个真实的故事。
ListenHub 在 5 月上线后,我们很快有了一万的注册用户。
在所有的用户中,年龄最大的一位,是一位美国老人。
有一天他在网上看到了 ListenHub,但是不太会用我们的软件,就写邮件问我,有没有使用教程。
我当时第一反应是,我从未想过给 ListenHub 写教程,因为它太简单了。
在 AI 圈子里都觉得过于简单的产品,在大众眼里依然是复杂得无从下手。
于是我回复他的邮件,说我们目前还没有教程,但是我正在写,写好了发给您。
我立即打开 Notion,写下了一份最简单的教程,然后发给了这位美国老人。

他看完教程,终于把我们的产品用了起来。
后来我们邮件又往来了数次,我也逐渐了解到他的故事。
他在 1957 年参军,今年应该已经有 80 多岁了。
长期的肺纤维化疾病和数次的中风,已经让他失去了说话的能力。
但这并没有打垮他,他组建了一个数万人的线上病友社区。
他把 ListenHub 当作自己嘴替,用 AI 生成播客内容,在社区里输出,帮助病友。
播客很好,但也只是万千表达方式中的一种。
于是我们决定做一个通用的 AI 嘴替,可以读网页,可以读小说,可以做相声,还能读英文论文。
让你的 AI 嘴替,随时替你说话。
这就是 FlowSpeech 要做的事情。
FlowSpeech:全球首个书面语转口语的TTS
其实今天已经有茫茫多的 TTS 服务了,我们为什么要自己做一个呢?
究其本质,口语和书面语,是两种完全不同的语言表达形式。
写出来的文章,不一定适合口播,而说出来的话语,也不一定适合写成文章。
像论文、新闻报道、AI 的回答,这些文字都是为了让人看,而不是为了让人读。
而现在市面上所有的 TTS 文字转语音服务,做的事情就只是把文字按字面的发音读出来。
这就好比演讲,在演讲的时候绝不能拿PPT照着念,而要用自己的话流畅地演出来才可以。
这就是 FlowSpeech 的原理。
FlowSpeech 是全球首个能把书面语转成口语的 TTS。
一个说话有人味儿的 TTS。
这么说有点抽象,让我们来用耳朵感受吧。
FlowSpeech 案例一:彻底去 AI 味儿的口语
平时 AI 回答的内容,经常会使用 Markdown 大纲格式,这种 AI 味儿十足的格式,非常不适合朗读。
比如这段话
传统 TTS 的效果,只能按照着字面发音,生硬,机械,不看文字的话非常影响理解。
再来听听 FlowSpeech 的效果,生动活泼,语句通顺,衔接自然,不看文字也能很轻松理解这段话的含义。
这对比是不是立竿见影!
这就是 FlowSpeech,正如其名字的含义:将文字转换为流畅的口语。
FlowSpeech 案例二:用中文口语读英文论文
我们平时读论文的时候有两大痛点:
第一个痛点是论文一般都用英文,读起来要各种翻译插件开着,而且比读中文速度要慢好几倍。
第二个痛点是论文的语言风格,其实是非常严谨的,严谨就意味着读出来很难听懂。
我们以 DeepSeek R1 的论文为例试一下。

传统 TTS 的效果,这是在念什么天书吧。。。
再来听听 FlowSpeech 的效果吧,让人想起亲切的李沐老师,耐心地给你讲解论文,又准确又好懂。
当然,FlowSpeech 也支持读英文,我们也来听一听英文的效果
FlowSpeech 的案例三:
除了读AI内容、读论文,我们也经常把有声读物作为一种放松消遣的手段。
读小说是有声读物里最常见的场景,但小说的文字有自己的表达风格,并不是为了朗读而写的,我们来看看这段文字。

传统 TTS 的效果,把这么好看的小说读得非常劝退,令人索然无味。
而 FlowSpeech,把小说里的文字,加上适当的口语润色,说出了一种说书人的味道。
除了上面三个典型场景,FlowSpeech 还可以:
- 用自己的声音给家里小朋友读睡前故事
- 用 AI 嘴替来一段相声,夸自己的女朋友变瘦了
- 让 AI 写个吐槽他的脱口秀,念出来发给他
实际应用的场景超级多,更多场景等待你的发现!
脱口秀
FlowSpeech + 声音定制 = 你的专属 AI 嘴替
如果你已经成为 ListenHub 的 Pro 会员,我们可以为你定制声音。
你可以在 FlowSpeech 里用自己的声音来读小说、读论文、做播客、做短视频。
从此,让你的 AI 嘴替为你发声。
从此,让你的创作效率提升10倍。
FlowSpeech 技术特点
为什么 FlowSpeech 相比传统的 TTS 的效果会这么好呢?
这源于它的几个技术特点:
- 上下文感知,通过对上下文的深度理解,让模型不仅能读出来,还能真正让内容能听懂
- 多模态支持,基于多模态模型,不仅能读文字,还能读图片、读PDF文稿
- 智能剪裁,通过智能感知,可自动去除所有不适合朗读的内容,比如广告、代码块、无意义的乱码等
此外,FlowSpeech 还支持流式响应,最快三秒开读,合成1000字的内容,也只需要10秒种。
能有这样的技术特点,源自于我们在做 ListenHub 的过程中,产品和技术团队对声音、对模型、对内容的深入的理解。
当然,也离不开 ListenHub 用户对我们产品积极反馈,在此特别感谢大家。
FlowSpeech 适合谁用?
FlowSpeech 有人味儿的口语表达能力,让它成为以下人群的理想工具:
- 内容创作者: 将公众号文章、自己的知识库,转化为自然口语化的音频,节省大量录音和剪辑时间。不管是做播客还是短视频口播,都是效率的百倍提升。
- 有声书爱好者: 将小说、散文等文学作品转化为富有表现力、接近真人讲述的有声书,从未有这么好的听书体验。
- 企业用户: 用于制作内部培训材料、产品介绍、客户通知、财报解读等语音内容,把枯燥的内容用人话讲出来,让客户和员工一听就懂。
- 应用开发者: 为自己的内容都加上音频版本,让老年人和儿童也能方便地获取信息,为用户提供更高的价值。
- 教育工作者: 将课件、教材、学术论文、技术文档转化为易于理解的口语讲解,让学习更高效、更沉浸。尤其适合制作课程音频、知识播客。
简单来说,FlowSpeech 就是你的 AI 嘴替。
任何需要文字转语音的场景,FlowSpeech 都能带来革命性的体验提升。
FlowSpeech 如何使用?
直接在浏览器访问 Listenhub.ai 即可在网页内直接使用。
iOS 下载:在 App Store 搜索 ListenHub 即可,FlowSpeech 下周上线到 App 里。
安卓下载:安卓版开发中,即将上线。
还有…API 吗?
很多朋友问我们,ListenHub 里的声音,能不能做成 API,接到自己的产品里?
我平时用 ChatWise 和 Cherry Studio 的时候,经常想让我们的 AI 主播把回答读出来,而今天,终于有可能做到了。
对,我们即将推出 FlowSpeech 的 TTS API 服务,敬请期待。
限时免费体验:
FlowSpeech 上线后,为了方便大家体验,我们和硅基流动的朋友们联合发布了限时免费体验活动。
在 8月 7 日到 8 月 13 日之间,大家可以限时免费体验 FlowSpeech。
其中的部分音色使用了硅基流动的声音 API,大家可以尽情享用。
在此,特别感谢硅基流动的朋友!

写在最后
为什么在行业都在吹概念,追模型,卷 Agent 的时候,
我们选择花一点时间做一个这样的小产品呢?
作为 AI 应用公司,我们当然希望自己成为天空中的独角兽。
但做产品的本质,是帮助一个个真实的人。
在我们帮助了一位80岁的老人之后,我们发现这个产品也许每个人都需要。
谁不想要一个 AI 嘴替,随时替自己说话呢?
这就是 FlowSpeech,全球首个书面语转口语的TTS。
一个说话有人味儿的 TTS。
MarsWave AI 团队 2025年8月1日