谷动谷力

标题: 启英泰伦语音识别 命令词和固件制作烧录指南 [打印本页]

作者: sunsili    时间: 2022-2-24 12:01
标题: 启英泰伦语音识别 命令词和固件制作烧录指南
本帖最后由 sunsili 于 2022-2-24 12:08 编辑

启英泰伦语音识别 命令词和固件制作烧录指南


1. 语音识别处理流程及所需资源

        语音识别的流程及所需资源如下图所示,麦克风将语音转换为数字信号,送到NN做识别。NN识别需要两个资源,声学模型和语言模型,NN识别后输出字符串。然后到命令词信息表里查找NN输出的字符串,如果未找到,说明误识别,不处理。如果查找到,就是有效识别,然后根据查找到的命令词获取相关信息,进行相应应用功能处理,最后调用播放器播放播报音。
注解

后面的章节会介绍如何生成所需的资源。

2. 生成语言模型

2.1. 准备命令词字符串文件
[color=rgba(0, 0, 0, 0.87)]
1、语言类型:下拉框选择中文、英文、日文。

2、下载样例:根据语言类型选择,会出现中文、英文、日文样例。



注解

2.2. 生成命令词语言模型(ASR.dat)

[


3. 生成播报音(voice)

1、语言类型:下拉框选择中文、英文。
2、下载样例:根据语言类型选择,会出现中文、英文样例。
3、人声分类、合成人声:选择分类和人声后,可以试听样音。
4、试听样音:点击后可以播放音频。
注解

提示
制作播报音也有一些规则可以减小固件大小,节省FLASH空间。SDK支持组合播报和选择播报,就可以把某些具有共性的词提取出来,制作成一个音频文件。 比如,打开空间,打开电视,打开风扇,打开台灯,打开客厅灯,打开书房灯,这么多词都有“打开”一词,就可把“打开”做成一个单独的文件,在命令词信息表文件中,用组合播报的方式关联到命令词。 再比如一些可以更换名字的项目,上电播报可能是“我是xxx, 你可以使用xxx来唤醒我”,可以把这名话拆分成4个音频:
其中”xxx”可以是多个名字,通过组合加选择播报的功能,在程序中根据情况选择播报,就不需要为每个名字生成一套播报音了。


4. 制作固件

4.1. 编辑命令词信息表文件

将前面下载得到的命令词信息表文件(“[60000]{xxxx}.xls”)拷贝到路径:%SDK_PATH%\sample\internal\%project%\firmware\user_file\cmd_info,替换原始[60000]开头的文件,并按照项目逻辑做相关修改,主要是关联播报音,设置唤醒词,调整识别灵敏度等。


注解

提示

4.2. 编辑代码,实现项目需求




4.3. 合成并烧录固件

4.3.1. 拷贝资源文件

固件制作目录如下图:

4.3.2. 打包固件

打包升级,双击运行“打包升级.bat”,在弹出界面选择“固件打包”:


进入打包界面:


注解

4.3.3. 烧录固件

在打包升级工具中点击“固件升级”:






欢迎光临 谷动谷力 (http://bbs.sunsili.com/) Powered by Discuz! X3.2