不到一百行实现一个小siri

发布时间：2016年12月02日作者：文章转自网络，版权归原作者所有，反馈可立刻删除

本文主要是实现了一个简单的命令词识别程序，算法核心一是提取音频特征，二是用DTW算法进行匹配。当然，这样的代码肯定不能用于商业化，大家做出来玩玩娱乐一下还是不错的。

转载请保留本文链接，谢谢。

设计思路

就算是个小东西，我们也要先明确思路再做。音频识别，困难不小，其中提取特征的难度在我听歌识曲那篇文章里能看得出来。而语音识别难度更大，因为音乐总是固定的，而人类说话常常是变化的。比如说一个“芝麻开门”，有的人就会说成“芝麻---开门”，有的人会说成“芝麻开门--”。而且在录音时说话的时间也不一样，可能很紧迫的一开始录音就说话了，也可能不紧不慢的快要录音结束了才把这四个字说出来。这样难度就大了。

算法流程：

特征提取

和之前的听歌识曲一样，同样是将一秒钟分成40块，对每一块进行傅里叶变换，然后取模长。只是这不像之前听歌识曲中进一步进行提取峰值，而是直接当做特征值。
看不懂我在说什么的朋友可以看看下面的源代码，或者看听歌识曲

分类导航

不到一百行实现一个小siri

设计思路

特征提取

网友评论

更多精彩分享