分类 十一、语音识别与合成 下的文章

语音识别的难点

1.语音激活测验(VAD):顾名思义,指的就是判断什么时候有语音什么时候没有语音(静音),后续的语音信号处理或是语音识别都是在VAD截取出来的有效语音片段上去进行计算的。
2.2.语音唤醒(VT):可以理解为喊名字,引起电视这个“听者”的注意。比如苹果的“heySiri”,Google的“OK Google”,创维的“小度”等,VT的目的是告诉电视(或手机),接下来的话是对你讲的哦,认真听好了。

3.回声消除(Echo Cancelling):在近场语音的环境下,播放音乐或是语音播报的时候可以使用按键进行停止,但远场环境下想要通过语音来进行控制,就必须得实现回声消除,不然,可能会对“电视”识别造成识别重复或者是错误。

4.低信噪比(signal to noise ratio,SNR)和混响(Reverberation):远场环境下要求拾音麦克风的灵敏度高,这样才能在较远的距离下获得有效的音频振幅,同时近场环境下又不能爆音(振幅超过最大量化精度)。这样的环境下,噪音必然会很大,从而使得语音质量变差,所以,要解决这个问题的技术点,就必须在有效的距离下进行不间断的采集有效振幅以及混响状态,达到一个稳定值并最终得到解决

深度学习降噪模型针,高噪音,

5.鸡尾酒会问题(cocktail-party problem):这个问题很有意思,说的就是这是指有多个说话人情况下的语音识别问题,比如鸡尾酒会上很多人讲话。如果你要听清一个人讲话那么像手势、口型、表情以及聊天话题这些干扰因素,就都会对你造成影响,这种环境下的语音识别是相当有挑战的。
声纹检测与跟踪,端点检测

7.方言,口音,情绪语音

6.6.关于语音识别的未来:简单来说,便是以后我们是否会实现《钢铁侠》中的智能助手贾维斯这样的故事情节,并且除了语音之外,显示屏和手势控制也是非常高效的交互手段。而对于语音助手,除家庭助手之外,就像电影《Her》中想象的一样,将来可能会成为真正的助手,与你真正形影不离。

语音识别(ASR)、声纹识别(VPR)、自然语言处理(NLP)、语音合成(TTS)、语音去噪