您现在的位置:首页 >> 新•资讯 >> 正文
网易 AI Lab 斩获全球顶级声纹识别竞赛冠军
发表时间:2020年7月23日 15:06 来源:新科技 责任编 辑:麒麟

近日,全球最大的语音会议INTERSPEECH 2020公布了SdSV声纹识别比赛成绩,网易AI Lab 从众多国际顶级队伍中脱颖而出,获文本相关声纹识别赛道综合排名第一、单模型第一的双料冠军。彰显了网易AI Lab在语音声纹识别技术领域的领先地位。

本次国际声纹识别比赛是业界非常具备权威性的赛事,参赛队伍来自国际多家知名高校与企业,包括近两年全球各项声纹识别比赛中的“常胜将军”:布尔诺工业大学、新加坡通信研究院、约翰霍普金斯大学等。

比赛中,网易 AI Lab 基于常见的X-Vector和PLDA算法,创新地提出了一种ASR-free的文本相关声纹识别算法。相比传统的Deep Speaker Embedding方法,该算法不需要依赖语音识别,就能够在多语言环境下,同时完成说话人和文本内容的验证。

比赛采用MinDCF(最小检测代价)和EER(等错误率)作为评测指标。网易AI Lab的单模型在两个指标均为最佳,其中EER达到了1.67%,相比第二名降低了11.6%,并远低于比赛 X-Vector基线系统(EER=9.05%)。

评估算法系统性能时常输出ROC 曲线,用于描述FAR(误识率)与FRR(拒识率)之间的关系。?

简单说,在声纹识别中,误识率就是“把不应该匹配的声纹当成匹配声纹”的比例,拒识率则是“把应该匹配的声纹当成不匹配声纹”的比例。

在对安全要求非常高的应用场景,就会把FAR值设置得低一些,因为判断错一次的代价很大,但这样做的同时会导致FRR值上升,用户体验度下降。

等错误率(EER)是系统的误识率(FAR)和拒识率(FRR)相等时的错误率,即ROC曲线与45度角直线相交的点,是衡量声纹识别算法系统综合性能的重要指标。EER数值越小,系统性能越好。

声纹识别是生物识别技术的一种,也称为说话人识别,是一种通过声音判别说话人身份的技术。

目前,人工智能主要有三个研究方向:视觉识别、智能语音、NLP自然语言处理。其中,在语音识别领域,声纹识别属于相对蓝海市场,解决的主要是“我是我”的身份认证问题,多应用在安全验证场景。

从近几年的市场趋势来看,银行,金融服务,保险已成为声纹识别应用的领导领域。

随着技术的不断成熟和融合,声纹识别技术将逐渐融入日常生活,根据不同应用场景的特点进行针对性开发,将产生巨大的应用价值。

而网易 AI Lab 声纹识别技术其实早已被运用于游戏场景中。除了进行游戏身份验证,还能够针对音色对用户进行分类、丰富玩家画像,从而更加精准地为玩家推荐志趣相投的好友、匹配实力相当的对手,为玩家带来更好的游戏体验。

高层访谈
雷军:推进“5G+AIoT”超级互联网
小米提出“手机+AIoT”的双引擎战略,目前已证明成效显著。截至到今年6月30日,小米依然是全球..
杨元庆:联想已成立疫情防控小组 并且做好了打大仗的准备
宏观上说,我们是为国家和全人类而战。过去三四十年来,中国已经成长为世界的工厂,为全球各地..
观点态度
5G毫米波网速优势显现,少了高速路的5G不完整
随着5G网络目前在全球各地的开通,5G毫米波在峰值速率上已经展现出了巨大优势。同时,工信部在..
手机厂商这半年:互怼变日常,多品牌成突围关键
2019年的手机行业,可以说是非常热闹的,仅仅上半年,“华米OV”的隔空互怼便开始频繁上演。
移动互联
手机
智能设备
汽车科技
通信
IT
家电
办公打印
企业
滚动
相关新闻
关于我们 | 联系我们 | 友情链接 | 版权声明
新科技网络【京ICP备18031908号-1
Copyright © 2020 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。