|
技术盒子|用声音开启微信的秘密-诸暨微信小程序开发为你呈现时间:2021-12-17 “芝麻开门!” 用声音登录其实是一件很酷的事情。 微信6.1.0版就推出了“声音锁”的功能,通过“我—设置—帐号与安全—声音锁”的路径就可以完成设置:按住屏幕上的按钮,念出八位随机的数字,系统识别后再读一遍,两次之后就算注册成功了。 这之后,你不记得密码也没有关系,只要读数字就可以,一秒钟轻松登录。 ▼▼▼
跟人的虹膜、指纹类似,每个人的声音也都是不一样的。 微信“声音锁”功能的核心是声纹识别。作为生物识别技术的一种,声纹识别简单易用,只要一个麦克风即可,适合远程身份确认登录,而且配合上其他措施,如内容鉴别,可以大幅提高准确率。 不过,作为首个能在正式的商业产品中落地的功能,微信声音锁如何做到一秒轻松登录? 一秒登录是个大挑战 从开启声音锁的步骤就可以看出来,声纹识别一般要经过下面的步骤:
用户通过注册,提取了声纹特征数据,形成自身的声纹模型,而在测试环节,再说一次话,提取这段语音的特征参数,与声纹模型进行相似度得分的计算。如果最终相似度得分超过了系统设定的“阈值”,则登录通过。否则就会被拒。
传统的声纹识别,主要应用在相对较长时的电话场景中,相信你也在谍战、警匪类的影视剧中看到过类似场景,漫长的监听后,男主带着如释重负的表情,说“就是他!终于出现了!” 而用声纹识别来做登录验证,如果验证语音很长,比如要你巴拉巴拉对着手机先说上一分钟,你会感觉很不爽。
但是,如果很短的话…… (机器os:人家都还没听清呢,怎么识别!!!)
因此,微信声音锁的用户的验证语音很简短,实现念一串数字一秒登录,用这么短的语音来做验证,难度可想而知。再加上,登录验证是一个比较严肃和敏感的使用场景,对识别准确率要求又极高。 这咋整? 鱼和熊掌真不可兼得? 当使用声纹识别登录时,最理想的状态当然是,自己随便地、漫不经心地说上一串数字或者词语短句,系统就能准确识别,让我通过,而其他人无论如何伪装,如何逼真模仿,甚至是录音,都不会被通过。
但是,现实往往很骨感。在声纹识别领域,这是一个基础性的两难选择问题。 下面这段话会有点拗口:通常,一个声纹识别系统有两个重要参数,错误拒绝率(False Rejection Rate, FRR)和错误接受率(False Acceptation Rate, FAR),前者是拒绝了正确说话人而造成的错误,后者是接受了错误的说话人而造成的错误。一个是通不过,一个是冒用。
理论上来讲,这两个参数无法同时达到最小或者最大,需要调整设定的阈值来满足不同应用场景的需求。这实际上是一种取舍。比如,在对“易用性”要求较高的情况下,就让错误拒绝率低一些,但是相应错误接受率会增加,不安全。反之,在“安全性”要求高的情况下,可以让错误接受率低一些,但错误拒绝率又会增加,造成验证通不过的不方便。
啰嗦这么多,其实就一句话,鱼和熊掌不可兼得。做一个既能让正主随便过,又能把其他无关人等拦在外面的系统很难。 那,微信是怎么做到既保证用户体验,又保证安全的呢? 强化训练:使用越多,准确率越高 微信声音锁的操刀者,微信语音识别团队告诉微信派,声纹识别的准确率有两个关键问题,一是特征提取,也就是知道你的声音是什么样的。二是模式匹配(模式识别),则是通过两段声音的比对来确认是否是你。
我们知道,周边环境的噪声、身体健康状况的变化,乃至一天中时间段的不同,这些生理、病理、心理、伪装、使用设备等等内在外在条件的影响,都会影响声纹识别的准确率,业内统称这些因素为“信道差异”,我们的“攻城狮”开发了一些“基于因子分析的统计方法”来降低这些差异的影响。另外,还设计了一个多系统融合的技术解决方案。通过多个子系统的叠加作用,使得识别性能大大提升。 列举一些,让你们感受下: 1 高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model, GMM-UBM),在这个系统中使用特征层面的因子分析技术(eigenchannel)来降低信道差异的影响。 2 Ivector技术,这是目前比较主流的技术,配合PLDA技术来降低信道差异的影响; 3 将神经网络技术也使用到声纹识别中,使用神经网络输出的后验概率来作为识别人的一种特征。 而在声纹的模式匹配(识别)方面,微信采用声纹模型进化方案。虽然有天然的两难选择,通过很短时间的注册和验证声纹来识别,准确率确实容易受到影响。但是通过不断加入用户已通过验证的,可信度较高的数据到声纹模型的训练中,就能使得声纹模型质量不断提升。
并且,在阈值的选择方面,随着模型的不断变化,微信还会对该用户的判决阈值做出智能调整,来保证验证拒绝率的降低。
简单来讲,用户使用声音锁越多,用户的识别准确率就越高。 这就像一个班的同学,上学时间越长,好学生与差学生的区别会越来越大。好学生会越来越好,相应对其要求也会越来越高。
让安全和易用的两难选择变得不难,也让你真正能用说话的方式来代替传统密码的输入。 在看这篇文章前,你能想到么,为了让你好用,微信在不断地优化声纹验证技术方案,并加入新的数据让机器努力学习。 (机器OS:天天做上几百套模拟题,我**容易么我!摔!!!) 开盒子 微信AI 让派爷带给你们一句话,“一秒钟不能清楚地从一念到十,你就不要用这个功能了。不服来战。” 咳,AI情绪不好。派爷翻译下,其实它想说,多跟我说说话吧。 我知道很多人没用过这个功能。 |