谷动谷力

标题: 【RealtekRTL8722DM物联网开发套件】+云语音识别 [打印本页]

作者: 鸣涧    时间: 2022-12-9 22:58
标题: 【RealtekRTL8722DM物联网开发套件】+云语音识别
【RealtekRTL8722DM物联网开发套件】+云语音识别

非常感谢 Realtek 与面包板平台提供的 RTL8722DM MINI 的测评机会。以下是我基于该套件实现的云语音识别开发流程以及最终效果。

项目源码:https://github.com/ha-zhuzhu/RTL8722DM-MINI-speech_recognizer

项目演示视频:

前言

Ameba RTL8722DM MINI 板载功能非常丰富,支持 Wifi,蓝牙,Codec,麦克风耳机孔,Micro SD卡接口等……并且还有丰富的外围接口可以连接各种传感器。因此我们能够通过这块套件实现绝大部分物联网场景下的应用,如云语音识别。

Realtek 官网上提供了 RTL8722DM MINI 详细资料,并给出了针对其不同功能的各种 ARDUINO 示例程序,数量多达七十多个,而且各种库写的非常简洁、源码注释清晰,因此开发起来非常舒适。

简单浏览,找到几个与本测评项目相关的库:

因此,云语音识别的实现流程为:
开发流程


Ameba


HttpClient

HttpClient 支持 HTTP 的各种请求,不过功能还不够完善。目前该库还不支持持久连接,如 post() 源码的主要调用流程为:
这样 POST 在发送请求头信息后就会结束连接,因此我们需要作一定的拓展。

POST 二进制流类型的文件对 POST 请求头和请求体的格式具有一定要求,我们只需要按照要求的格式和流程发送数据即可。由于我们一次流程只发送一个语音文件,并且其体积较大,因此请求体中只有头部及尾部的两个 boundary,以及中间的音频内容。因此我们可以提前设置好两个 boundary,以及 Content_Type, Content-Length 等内容以制作请求头,并在请求体中分三个部分发送即可:


在 setup() 中将它们写入我们在 HttpClient 中添加的成员变量中。在本项目中需要一边读取 sd 卡一边发送,因此不提前设置 post_content。


每次录音成功后再读取文件,更新内容大小相关变量:


最后添加方法 mypost(),流程:


实现:



FatFs_SD

功能完善可以直接使用。貌似只支持Fat32?需要提前制备 SD 卡。

没有获取文件大小的方法,自己实现:



RecordWav

功能完善,可以直接录制生成 Wav 格式的音频文件,不需要手动给 PCM 文件写文件头,能直接发给云端进行语音识别,非常方便。只需要提前设置采样率位深等信息。

主循环

实现了各种方法后就能在主循环内实现云语音识别的流程了:


服务器

服务器端搭建在我的个人网站上,nginx+PHP架构,使用腾讯云提供的语音识别 api。假设板端将请求提交到 http://asr.hazhuzhu.com/ameba_asr.php

nginx



PHP

后端负责存储音频文件并调用语音识别 api(需要使用腾讯云相关 SDK),最后返回识别结果。api 调用部分腾讯云提供了相关文档和代码生成工具,比较方便。


至此我们完成了一个完整的基于 Ameba RTL8722DM MINI 的云语音识别应用。

总结

首先我想谈谈使用 Ameba RTL8722DM MINI 的开发体验。正如前文所述,MINI 体积小但功能强大,能够实现大部分物联网场景应用。并且 MINI 支持 Arduino 开发,很快就能上手实现,不需要构建繁杂的单片机工程。而且官网的文档非常详尽,大量的示例程序、api文档、硬件细节以及详细的源码注释等,极大地方便了我们的开发。相关工作人员也很有耐心,点赞!

其次,其它开发者有提到麦克风的问题。我感觉确实录制下来的声音比较小,可能是缺省增益不够大?不过最终实现的语音识别效果还不错,没有什么影响。

最后再次感谢 Realtek 与面包板平台提供的这次测评与学习的机会。囿于时间和技术水平,本项目还有许多值得改进的地方,包括代码规范与识别效率等,希望能和大家共同交流学习!也祝主办方的技术生态越来越好!








欢迎光临 谷动谷力 (http://bbs.sunsili.com/) Powered by Discuz! X3.2