1.1. 语音识别
语音识别(ASR,Automatic Speech Recognition),用于将语音中的文字信息转换为计算机可读的输入信息,例如按键、二进制编码或者字符序列,实现人机交互。
1.1.1. 技术简介
语音识别系统分训练和解码两阶段。训练,即通过大量标注的语音数据训练声学模型,通过大量的文本数据训练语言模型;解码,即通过声学模型和语言模型将训练集外的语音数据识别成文字。
1.1.2. 主要功能
支持多语种 Rokid ASR支持中文、英语、汉英混合语种的识别。
支持远场噪声环境的识别 支持远距离的语音识别,识别距离长达5米。同时,即使在嘈杂环境,也能精准识别。
支持特定句式、词汇的识别优化 支持用户自定义句式的优化识别,用于提升场景化识别指令的识别率。支持用户设置热词的优化识别,提升特定词汇的识别率。
1.1.3. 优势亮点
支持实时快速、精确的云端识别和远场拾音, 5米距离识别准确率高达>92%。
识别输出支持流式格式,能够实时地得到当前识别的结果,根据字段判断是否返回最终结果。
为保证用户口音和生僻字、方言的识别,针对用户粒度配置误识别较高的纠错指令,通过app端的人工干预,进行识别的纠正。
支持通用领域识别和垂直领域定制识别,定期增加领域数据,快速迭代,持续提升识别率。
1.1.4. 历史版本
版本号 | 更新内容 |
---|---|
V1.8 | 1、新增线上喜马拉雅、音乐、影视和故事的数据,新增微博和论坛数据,提升识别准确率。 2、更新词典,增加热歌英文单词,提升音乐识别率。 3、上线FCTC模型,badcase优化44.96%。 4、识别性能明显提升,产品点播通过率的优化幅度>5%。 |
V1.7 | 1、优化提升儿童识别率。支持第三方厂家进行配置。 2、增加烹饪、路况、医疗、星座、股票等领域数据,优化提升通用识别率。 3、更新辞典,覆盖更多新词、人名、生僻字和繁体字,持续优化发音、变声等问题。 4、提升语音识别的稳定性。 |
V1.6 | 1、更新词典和语言模型,优化线上点播通过率。 |
V1.5 | 1、支持ASR置信度输出。 2、优化ASR内容的识别,提升ASR的性能。 |
V1.4 | 1、修正VAD bug。 2、发音字典更新。 3、优化grammar命中率,提高识别准确率。 |
V1.3 | 1、优化影视、喜马拉雅内容的识别率。 2、优化儿童唤醒&识别。 3、优化ASR误命中、误识别的问题。 |
V1.2 | 1、口音识别优化更新,增加四川数据。 2、优化儿童唤醒&识别。 |
V1.1 | 1、修正VAD bug。 2、发音字典更新。 3、优化grammar命中率,提高识别准确率。 |
V1.0 | 1、优化rokid语言模型,提高识别准确率。 2、更新词典、修复grammar问题。 |