技术盒子|用声音开启微信的秘密-诸暨微信小程序开发为你呈现

时间：2021-12-17 作者：诸暨微信小程序开发【转载】来自：微信派

“芝麻开门！”

用声音登录其实是一件很酷的事情。

微信6.1.0版就推出了“声音锁”的功能，通过“我—设置—帐号与安全—声音锁”的路径就可以完成设置：按住屏幕上的按钮，念出八位随机的数字，系统识别后再读一遍，两次之后就算注册成功了。

这之后，你不记得密码也没有关系，只要读数字就可以，一秒钟轻松登录。

▼▼▼

跟人的虹膜、指纹类似，每个人的声音也都是不一样的。

微信“声音锁”功能的核心是声纹识别。作为生物识别技术的一种，声纹识别简单易用，只要一个麦克风即可，适合远程身份确认登录，而且配合上其他措施，如内容鉴别，可以大幅提高准确率。

不过，作为首个能在正式的商业产品中落地的功能，微信声音锁如何做到一秒轻松登录？

一秒登录是个大挑战

从开启声音锁的步骤就可以看出来，声纹识别一般要经过下面的步骤：

简单来讲，声纹识别可以分为注册和测试两个部分。每个部分都包含从语音信号中提取说话人相关信息的特征参数，行话是“特征提取模块”。此外，在注册的环节，包含了“模型训练模块”，测试部分还包含“确认判决模块”。

用户通过注册，提取了声纹特征数据，形成自身的声纹模型，而在测试环节，再说一次话，提取这段语音的特征参数，与声纹模型进行相似度得分的计算。如果最终相似度得分超过了系统设定的“阈值”，则登录通过。否则就会被拒。

传统的声纹识别，主要应用在相对较长时的电话场景中，相信你也在谍战、警匪类的影视剧中看到过类似场景，漫长的监听后，男主带着如释重负的表情，说“就是他！终于出现了！”

而用声纹识别来做登录验证，如果验证语音很长，比如要你巴拉巴拉对着手机先说上一分钟，你会感觉很不爽。

但是，如果很短的话……

（机器os：人家都还没听清呢，怎么识别！！！）

因此，微信声音锁的用户的验证语音很简短，实现念一串数字一秒登录，用这么短的语音来做验证，难度可想而知。再加上，登录验证是一个比较严肃和敏感的使用场景，对识别准确率要求又极高。

这咋整？

鱼和熊掌真不可兼得？

当使用声纹识别登录时，最理想的状态当然是，自己随便地、漫不经心地说上一串数字或者词语短句，系统就能准确识别，让我通过，而其他人无论如何伪装，如何逼真模仿，甚至是录音，都不会被通过。

但是，现实往往很骨感。在声纹识别领域，这是一个基础性的两难选择问题。

下面这段话会有点拗口：通常，一个声纹识别系统有两个重要参数，错误拒绝率(False Rejection Rate, FRR)和错误接受率(False Acceptation Rate, FAR)，前者是拒绝了正确说话人而造成的错误，后者是接受了错误的说话人而造成的错误。一个是通不过，一个是冒用。

理论上来讲，这两个参数无法同时达到最小或者最大，需要调整设定的阈值来满足不同应用场景的需求。这实际上是一种取舍。比如，在对“易用性”要求较高的情况下，就让错误拒绝率低一些，但是相应错误接受率会增加，不安全。反之，在“安全性”要求高的情况下，可以让错误接受率低一些，但错误拒绝率又会增加，造成验证通不过的不方便。

啰嗦这么多，其实就一句话，鱼和熊掌不可兼得。做一个既能让正主随便过，又能把其他无关人等拦在外面的系统很难。

那，微信是怎么做到既保证用户体验，又保证安全的呢？

强化训练：使用越多，准确率越高

微信声音锁的操刀者，微信语音识别团队告诉微信派，声纹识别的准确率有两个关键问题，一是特征提取，也就是知道你的声音是什么样的。二是模式匹配(模式识别)，则是通过两段声音的比对来确认是否是你。

我们知道，周边环境的噪声、身体健康状况的变化，乃至一天中时间段的不同，这些生理、病理、心理、伪装、使用设备等等内在外在条件的影响，都会影响声纹识别的准确率，业内统称这些因素为“信道差异”，我们的“攻城狮”开发了一些“基于因子分析的统计方法”来降低这些差异的影响。另外，还设计了一个多系统融合的技术解决方案。通过多个子系统的叠加作用，使得识别性能大大提升。

>>>>

列举一些，让你们感受下：

高斯混合模型-通用背景模型（Gaussian Mixture Model-Universal Background Model, GMM-UBM），在这个系统中使用特征层面的因子分析技术（eigenchannel）来降低信道差异的影响。

Ivector技术，这是目前比较主流的技术，配合PLDA技术来降低信道差异的影响；

将神经网络技术也使用到声纹识别中，使用神经网络输出的后验概率来作为识别人的一种特征。

而在声纹的模式匹配（识别）方面，微信采用声纹模型进化方案。虽然有天然的两难选择，通过很短时间的注册和验证声纹来识别，准确率确实容易受到影响。但是通过不断加入用户已通过验证的，可信度较高的数据到声纹模型的训练中，就能使得声纹模型质量不断提升。

并且，在阈值的选择方面，随着模型的不断变化，微信还会对该用户的判决阈值做出智能调整，来保证验证拒绝率的降低。

简单来讲，用户使用声音锁越多，用户的识别准确率就越高。

这就像一个班的同学，上学时间越长，好学生与差学生的区别会越来越大。好学生会越来越好，相应对其要求也会越来越高。