1.1. 语音合成

语音合成(TTS, Text-to-speech),用于将文本转换为语音,让应用或设备具备开口说话的能力,提升人机交互体验。语音合成广泛应用于人机对话、新闻朗读、语音导航等场景。

1.1.1. 技术简介

Rokid TTS采用参数合成方法,结合深度学习技术的运用,让机器可以生成真实自然的语音。

1.1.2. 主要功能

  • 支持多语种 Rokid TTS支持中文汉语普通话、英语、中英混合等语种的合成。

  • 支持多种发音人 支持丰富的发音人,比如甜美女生、儿童等音色的合成。

  • 支持个性化合成配置 RokidTTS会自动对标点符号做基本处理,比如在语句中插入短停顿符号,能够满足基本的使用场景。 同时,若琪SSML(语音合成标记语言),支持对TTS进行诸如插入一段音频、改变语速、改变发音人等更加灵活的自定义,让语音合成效果更具表现力。

1.1.3. 优势亮点

  • 领先的声码器技术,独家提供24K高采样率声音输出,相比业界其他16K采样率的TTS,听感清亮而不沉闷,音质明显更优。

  • 支持合成歌唱语音,让您的产品不仅能说话,还会像人类一样哼唱歌曲。

  • 针对儿童发音人TTS进行了一系列细节优化。

  • 提供个性化音库定制服务,为您的产品定制属于自己的声音。

results matching ""

    No results matching ""