1.1.1. 语音识别 WebSocket 接口定义文档

1.1.2. 概述

本文档目的是描述云端语音接口的 WebSocket 版本的开放协议，面向想要了解语音识别（ASR）细节，并具有一定开发能力的开发者或用户。

1.1.3. 协议详解

设备认证
语音识别

WebSocket API 接入参考Demo

1.1.4. 服务地址

环境	地址	用途
线上	wss://apigwws.open.rokid.com/api	对外提供的正式稳定环境

1.1.5. 协议地址

github

1.1.6. 协议概述

此文档用于定义开放平台上云端应用接口开发协议，协议遵循 websocket 协议。协议采用先认证，再使用的方式，步骤如下：

建立 wss 连接，注意是 websocket + ssl
认证设备
service 设置为 speech，此连接后续可进行一次或多次语音交互，直至连接断开
如果需要同时使用语音识别与语音合成，则需要建立两条 wss 连接，每条连接需要分别作认证

语音识别

流程

需要先进行 service 为 speech 的设备认证
一次完整的语音识别的数据包以 id 来标识，称为一个 session
设备端发送三种类型的数据
- START 设置 session 的参数数据
- VOICE 发送 session 的语音数据
- END 表示 session 结束
云端返回三种 RespType 的数据
- INTERMEDIATE 返回 asr 的中间结果，典型的有 extra 中 activation
- ASR_FINISH 返回 asr 识别结果
- FINISH 返回 nlp 结果
每个 session 以 FINISH 结束

SpeechRequest

参数	类型	描述	默认值
id	int32	唯一标识，用于跟踪一个完整的请求，处理及响应事件。	0
type	ReqType	START、VOICE、END 或 TEXT	空
voice	bytes	需要识别的语音流	空
asr	bytes	需要理解的 asr 文本, 如果不传voice参数，而传递这个参数，则相当于跳过语音识别，单独调用了nlp	空
options	SpeechOptions	辅助理解的选项，内容见下表	空

options 字段的详细说明

参数	类型	描述	默认值
lang	string	语音流的语言，目前支持 zh-CN，en-US。	zh-CN
codec	string	语音流的编码，目前支持 PCM，OPU，OPU2，OPUS，AMRWB，AMRNB，PCM8K。 PCM，OPU，OPU2，OPUS，AMRWB 的语音数据格式为单通道，采样率16Khz，16bit； AMRNB，PCM8K的语音数据格式为单通道，采样率8Khz，16bit；	PCM
vad_mode	VadMode	LOCAL、CLOUD	LOCAL
vad_timeout	uint32	如果 vad_mode 为 CLOUD 时，指定 vad 时间，单位 ms，推荐设置为 500ms	0
no_nlp	bool	是否需要语义理解（nlp）	false
no_intermediate_asr	bool	是否需要 asr 的实时识别结果	false
stack	string	设备当前的应用栈信息，"appid1:appid2"按照应用被调用的时间逆序排列	空
voice_trigger	string	激活词，即用于唤醒设备的名字，如"若琪"；可用 "\	" 分隔指定多个，如 "若琪\	洛奇"	空
voice_power	float	语音流的音强，若设置则在多设备中作仲裁，同时只有音强最强的设备有响应	0
trigger_start	float	语音流的激活词的开始位置。	0
trigger_length	float	语音流的激活词的长度。	0
skill_options	string	设备上的状态信息，为 json 结构，此结构会传给相应的 skill 的 cloud app	空
voice_extra	string	asr 引擎的参数，json 格式	空
vad_begin	uint32	vad begin 的窗口大小 :-(	0
no_trigger_confirm	bool	是否需要云端激活词的二次确认功能	false
itn	bool	是否要将文本转化为数字(注: 现在只有tv模型有用); 例: 一二三 -> 123	false

说明

voice_trigger 激活词：设备的名字，当用户说这个词时，设备会被唤醒，并给出反应。
VAD：语音活性检测(Voice activity detection)，当用户说了一个指令后，停顿一定时间(可以由vad_timeout参数设定)，会被设备或云端认为已经说完
仲裁：同一用户的多个设备同时收到语音指令时，由 voice_power 的强弱决定离说话人的远近，从而最近的设备有响应，而其它设备无响应
声纹：由 trigger_start 及 trigger_length 来指明激活词在语音流中的位置，声纹服务用来作说话人识别
voice的编码格式如下：
- 识别支持pcm语音流识别，单通道数据位宽16bit 采样率16kHZ pcm
- 识别支持opu语音流识别，单通道数据位宽16bit 采样率16kHZ opu opu压缩每帧数据格式由1字节（数据长度）+ opus压缩320字节数据
如果只需要ASR，则设置no_nlp为true。
如果只需要NLP，则直接传入asr文本参数。

SpeechResponse

参数	类型	描述
id	int32	唯一标识，用于跟踪一个完整的请求，处理及响应事件。
result	SpeechErrorCode	错误信息
type	RespType	结果类型：INTERMEDIATE、ASR_FINISH、FINISH
asr	string	asr实时识别的结果
nlp	string	nlp识别的结果: {"appId": "技能id", "appName": "技能名称", "asr": "asr识别结果", "cloud": "是否为云端技能: true / fasle", "intent": "意图", "pattern": "设定的用户语句","slots": { "槽名称": { "type": "槽类型", "value": "槽的值" }}}
action	string	cloud app处理的结果，json字符串
extra	string	目前有：{"activation": "xxx"}
vpr	string	声纹的结果，json字符串，目前为：{"id": "xxx"}
asr_phoneticisms	string	每个字的拼音结果，json字符串，如“晓”字的拼音为{"phoneticism":"xiao3","word":"晓","type":"CHINESE"}
voice_trigger	string	激活词的识别结果

说明

字段 extra 返回激活词（由 SpeechRequest 中的 voice_trigger 指定）的二次确认、仲裁、声纹结果，为 json 格式，其中 activation 有如下取值：
- none: 无激活词
- accept: 有激活词，并且识别结果确认以激活词开头
- fake: 有激活词，但识别结果不以激活词开头
- reject: 有激活词，但语音能量 voice_power 不是仲裁设备中最大的
- invalidate: 打开了声纹锁，但说话者并不是已录制的用户
当语音指令为 "激活词xxx" 时，如 "若琪现在几点"，除返回上述的 activation 值外，字段 extra 还会返回 {"oneshot": false}
SpeechRequest 中的 no_trigger_confirm 指定是否返回字段 extra 中 activation 为 "fake" 的结果
SpeechRequest 中的 no_intermediate_asr 指定是否返回字段 asr 中间结果
SpeechRequest 中的 no_nlp 指定是否返回字段 nlp 结果
voice的编码格式如下：
- 识别支持pcm语音流识别，单通道数据位宽16bit 采样率16kHZ pcm
- 识别支持opu语音流识别，单通道数据位宽16bit 采样率16kHZ opu opu压缩每帧数据格式由1字节（数据长度）+ opus压缩320字节数据

1.1.7. 典型场景

本地vad

如果发送的 VOICE 中包含 "若琪今天天气怎么样"，需要发送 END
使用场景
- 物理按键开始拾音（发送 START），发送 VOICE...，放开结束拾音（发送 END）
- 用激活词唤醒（发送 START），发送 VOICE…，本地 vad 结束（发送 END）

云端vad

如果发送的 VOICE 中包含 "若琪今天天气怎么样"，设置 vad_timeout 为 500ms，不需要发送 END

1.1.8. speech异常

如果内部服务异常或不可用，则 SpeechResponse.result 会被设为 INTERNAL
语音开始前 3s 内不包含人声，则
- 如果带激活词，并且 asr 已经识别出激活词打头，则返回 extra 为 {"activation": "fake"}
- 否则按正常流程继续
SpeechRequest.id 为 session id，只要确保同一连接下唯一即可
同一 session 中，如果有 2s 内没有收到下一个语音，则中止 session，按当时 asr 识别出的结果走后续流程
任一 session 的语音不允许超过 10s，超过即中止，按当时 asr 识别出的结果走后续流程
任一 session 中 asr 返回最终结果为空，则立即返回 {FINISH, SUCCESS, asr(""), nlp(""), action(""), ...}

1.1.9. speech 特殊逻辑

二次确认逻辑
1. 当 asr 中间识别的文本以某一激活词打头，则返回 extra {"activation":"accept"} 即正常激活
2. 当 asr 中间识别的文本比最长激活词多 9 个字时，进行判断
3. 或 asr 识别为最终结果时，进行判断
4. 如果不以任一激活词打头，则返回 extra {"activation":"fake"} 即误激活
仲裁逻辑
1. 当仲裁服务返回拒绝
2. 并且在 1s 的响应时间内
3. 返回 extra {"activation":"reject"} 即仲裁失败
4. 超时 1s，则丢弃这次结果
声纹锁逻辑
1. 当声纹服务返回用户已经打开声纹锁，但未识别出有效用户
2. 并且在 1s 的响应时间内
3. 返回 extra {"activation":"invalidate"} 即仲裁失败
4. 超时 1s，则丢弃这次结果
如果设置 no_trigger_confirm，voice_trigger（"abc"）而 asr 识别出来 "xyz123456"，则返回 {ASR_FINISH，"xyz123456"}，但按 "abc" 字的个数3取 "xyz123456" 前3个 "xyz" 作为此次的激活词走后续 nlp 流程，此时会有多种可能：
- 如果 asr 误将 "abc" 识别成 "xyz"，则 nlp 将得到去掉激活词后的文本 "12356"，语义理解正常
- 如果 asr 误将 "abc" 识别成 "xy"，则 nlp 将得到去掉激活词后的文本 "z12356"，语义理解可能会不正常
- 如果 asr 误将 "abc" 识别成 "xyz1"，则 nlp 将得到去掉激活词后的文本 "2356"，语义理解可能会不正常
请求中 voice_trigger 为 "|" 分隔的多激活词，二次确定将按最先匹配的激活词，而交给 nlp 则为文本匹配上的那个：
- 如 voice_trigger（"abc|abcde"），当 asr 识别结果为 "abc"时，即返回 extra {"activation":"accept"}，则最终 asr 识别出 "abcde123"，则交给 nlp 的激活词为 "abcde"
- 如 voice_trigger（"abc|abcde"），当 asr 识别结果为 "abc"时，即返回 extra {"activation":"accept"}，则最终 asr 识别出 "xyz123"，则交给 nlp 的激活词为 "xyz12"

语音交互