首页 > 硬件 > 详细

依图夺冠世界级声纹识别竞赛!智能语音战场又破一城

发布时间:2019-09-10 14:39:53
阅读:48     评论:0     收藏:0      [点我收藏+]

  【新智元导读】去年年底才宣布进军智能语音市场,如今依图科技又攻下一城:9 月初,夺冠全球声纹识别竞赛 VoxSRC。依图正成为“边界重塑者”,业务愈加多元:计算机视觉、NLP、芯片、智能语音,逐渐备齐各项 AI 能力。

  AI 技术战场上,依图科技又攻下一城。

  刚刚,在全球声纹识别竞赛 VoxSRC(VoxCeleb Speaker Recognition Challenge)上,依图以大幅领先的成绩夺得第一名

  去年年底,依图宣布强势进军智能语音领域,并用“识别精度创中文语音识别新高点”的技术成就作为开场,如今在声纹识别技术上亦是登顶。

  这两年来,依图不断在重塑边界,业务越来越多元,一直在挑战新领域,也屡摘桂冠——在 AI 技术上的记录既有深度也有广度,除拥有绝对优势的起家本领人脸识别外:

  • 视觉计算:成为“AI 国家队”,依图承建“视觉计算国家新一代人工智能开放平台”。
  • 语音识别:在全球最大的中文开源数据库 AISHELL-2 中,依图 2018 年时短语音听写的字错率(CER)达到 3.71%,大幅刷新当时的纪录;
  • AI 芯片:算法即芯片,重磅推出拥有世界级算法优势的云端 AI 芯片——求索(questcore™);
  • 自然语言处理:基于机器学习的 NLP 技术,依图医疗与合作团队在世界顶级医学科研期刊《自然·医学》(Nature Medicine)刊发题为《使用人工智能评估和准确诊断儿科疾病》的医疗人工智能成果。

  计算机视觉、智能语音、NLP、芯片,依图的下一程又在哪里?

  一、超过清华、约翰霍普金斯团队,拿下全球声纹识别竞赛冠军

  所谓声纹识别就是说话人识别,根据人说话的声音,判定人的身份的技术。

  VoxSRC 是基于英国牛津大学两年前发布的公开声纹识别 VoxCeleb 数据集组织的学术界知名比赛。

  本次参赛者来自中、美、法、日本等多个国家的高校与企业,包括中山大学、约翰霍普金斯大学、清华大学、法国国家信息与自动化研究所、平安科技、NEC、君林科技等。

  这是依图首次且独立参与这场竞赛,参赛队伍名称为 logicworld,比赛成绩大幅领先第二名,依图、第二名和第三名队伍的 EER(等错误率)分别是 0.98% 、1.42% 和 1.54%。EER 是判断声纹识别算法系统的综合指标,EER 越小系统性能越好。

  VoxCeleb 数据集来自 YouTube 名人采访视频,含有 7000 多个不同说话人超过 100 万段语音,时长总共超过 2000 小时。不仅数据量大,VoxCeleb 还充分考虑了数据的多样性,61% 的发言者为男性,并且涉及不同的种族、口音、职业和年龄。

  此外,VoxCeleb 的数据都来自无约束场景,比如红毯采访、会谈录音,因此音频中含有大量噪音,包括背景噪音、笑声、重叠的说话声和其他杂音,收录工具也不尽相同,有的甚至是手机拍摄的粗糙视频。

  来源复杂的数据集对声纹识别技术水平的要求更高,声纹识别的高准确率可以提高采用声纹识别技术进行访问控制的系统的安全性。

  VoxSRC 挑战赛的另一大难点,同时也是其结果备受认可的一点,就是测试数据不含标注,也就是“盲测”,确保了比赛结果的公正与公平。

  参赛团队的任务是分辨一对音频是来自同一个发言者还是来自不同的发言者,可以选择固定训练集,也可以使用无约束训练集(除测试集以外的任何数据)。

  依图参加的是固定训练数据集任务,在这种情况下,参赛者只能使用赛方提供的 VoxCeleb2 开发集,该数据集含有来自 5994 个讲者的超过 10 万句话语

  二、深度学习拓展声纹识别边界,深耕算法的依图赢在起跑线上

  此前,深度学习在声纹识别领域并不常见,从 2012 年开始,深度学习逐渐介入声纹识别,进行技术的重新洗牌

  事实上,相对于图像和 NLP 领域,目前声纹领域所用到的神经网络和深度学习算法相对简单,提升空间依然很大。

  而依图正是拥有世界顶级算法的人工智能公司,可以说是直接赢在了起跑线上。

  还有一点值得注意,这次依图参加的是固定训练集任务,而其识别精度比其他使用无约束训练集的团队还高

  目前,声纹识别的后端仍被 PLDA 等传统处理和分类技术占据,深度学习的介入可以促使声纹识别像人脸识别一样广泛应用。

  三、去年年底强势进军,成为智能语音界一匹黑马!

  依图科技在 2018 年底杀入智能语音领域成为一匹“黑马”。

  用以宣布进军语音战场的则是技术与产业的双重亮眼成绩:

  • 技术上,在全球最大的中文开源数据库 AISHELL-2 中,依图 2018 年 12 月时的短语音听写的字错率(CER)达到 3.71%,相比原业内领先者提升约 20%,大幅刷新彼时纪录。
  • 产业上,依图联合微软推出基于 Azure 云服务的语音开放平台,并携手华为发布软硬件一体化的“智能语音联合解决方案”,将依图语音识别技术提供给第三方应用开发者。

  那时候依图就强调语音一直以来都是该公司的关注课题,进入语音识别领域是自然而然的事情,立志做世界最好的中文普通话语识别技术。


讯飞依图 BAT 各家算法差异巨大,讯飞依图位列第一阵营

  如同以往一直坚持的“技术王道”理念,在谈到关于未来预计推出的语音产品及其功能时,依图首席创新官吕昊博士曾经表示:“实际上,我们认为技术和场景是比产品和功能更关键的要素。

  依图 2018 年推出的中文语音识别算法,与业内原有领先者相比,不仅大幅提升了识别准确率,而且在单个算法模型上,有极为出色的多场景适用性表现。

  在全球最大中文开源数据库 AISHELL-2 的三个测试子集,以及来自第三方的近场口音测试集(Accent)、近场安静聊天测试集(Chat)、语音节目测试集、电话测试集、远场测试集等测试场景中,依图均处于业界领先水平,而且字错率几乎全部在 15% 以下。

  其中,在 AISHELL2 的-2018A-EVAL 数据集中,依图的识别准确率高达 96.29%,字错率仅为 3.71%,领先第二名约 20%


依图联合创始人兼 CEO 朱珑

  而构建生态方面,2018 年 12 月,依图宣布与微软 Azure 云服务联合发布语音开放平台,将行业领先的语音识别技术能力开放给第三方应用开发者。依图也携手华为联合发布“智能语音联合解决方案”,该方案基于依图语音开放平台,以及华为全栈全场景昇腾系列芯片和面向数据中心侧的 Atlas 300 AI 加速卡。

  已有的生态布局,加上从语音识别到声纹识别不断进行边界拓展的技术积累,依图已经在智能语音方面握了一手好牌。

边界重塑者:视觉感知、NLP、AI 芯片、智能语音,依图备齐各项 AI 能力

  不止是在语音领域成为“黑马”,今年 5 月,依图在发布会上重磅推出了拥有世界级算法优势的云端 AI 芯片——求索,打破了算法公司与芯片硬件公司的“次元壁”。

  在近两年来,依图一直在“跨界”尝试,不断重塑业务边界。


依图求索芯片

  当时AI“大牛”颜水成博士加入依图担任 CTO 时,曾向新智元表示:“依图是一家非常低调的 AI 公司,但它无论是在产品还是国际技术比赛上都取得了非常好的成绩,这引起了我的好奇,想要一探究竟。”

  虽然低调,但 AI 成绩单确实过硬。

  截止目前,依图在人工智能技术上的记录既有深度——在视觉、听觉、语义理解等方面分别问鼎全球一流水平,并且有公开的独占鳌头的成绩;也有广度——覆盖视觉感知、自然语言理解、语音/声纹识别、AI 芯片、AI 医疗等方面。

  其中,NLP 的研究甚至已经与依图早已进军的 AI 医疗相结合。今年 2 月,世界顶级医学科研期刊《自然·医学》(Nature Medicine)在线刊发题为《使用人工智能评估和准确诊断儿科疾病》的医疗人工智能成果。

  该成果由依图医疗联合广州市妇女儿童医疗中心等机构共同研发,基于机器学习的自然语言处理(NLP)技术实现不输人类医生的强大诊断能力,并具备多场景的应用能力。

  这是全球首次在顶级医学杂志刊发有关自然语言处理技术基于中文文本型电子病历(EHR)做临床智能诊断的研究成果。不久前,依图医疗将相关技术应用于临床应用,将全国首款儿科诊疗解决方案落地国家儿童医学中心,就诊时间缩短了 1.5~2 小时。

  在人脸识别方面,依图在美国国家标准与技术研究院(NIST)举行的全球人脸识别权威测试(FRVT)中连续三年获得第一名。

  在中央网信办、工业和信息化部、公安部指导下的首届中国人工智能竞赛上,依图斩获 10 项A类成绩,是夺冠最多的团队

  芯片设计的技术实力也让依图一举进入“AI 国家队”行列

  8 月 29 日的上海人工智能大会上,科技部宣布,依托依图先进的芯片设计及世界级算法,建设“视觉计算国家新一代人工智能开放平台”,促进芯片设计与人工智能的结合,推动视觉计算生态体系的建设。

  逐渐备齐各项 AI 能力,业务能力越来越多元,商业竞争力不断增强。

  那么,依图下一步的计划是什么呢?下一个重塑的边界在哪里?这可能又是一个新故事。

(0)
(0)
 
举报
评论 一句话评论(0
登录后才能评论!
© 2014 bubuko.com 版权所有 鲁ICP备09046678号-4
打开技术之扣,分享程序人生!
             

鲁公网安备 37021202000002号