好运3分快三邀请码牛津大学联合 DeepMind 发布 LipNet :用深度学习读懂你的唇语

  • 时间:
  • 浏览:3

新的调查显示 好运3分快三邀请码AI 有助轻松战胜人类,但还有这俩这俩工作要做。

何如读懂唇语对人类来说是一一两个哪几个的大问题,据数据显示,大多数人平均有助读对一句唇语的十分之一。唇读很困难,不仅是将会我有助观察对方嘴唇、舌头和牙齿的轻微运动,这俩大多数唇语信号十分隐晦,难以在没法 语境的情形下分辨。

现在,好运3分快三邀请码研究人员表示人工智能技术,比如高度学习或许有助防止这俩哪几个的大问题。人工智能侧重于大数据运算,将会帮助改善了机器语音识别,甚至能达到人类的水平。没法 机器学习技术是有的是有助运用到读懂人类的唇语上?

据国外媒体报道,牛津大学人工智能实验室、谷歌 好运3分快三邀请码deepMind 团队 和加拿大高等研究院(CIFAR)就在近日联合发布了一篇论文,介绍了结合高度学习技术的唇读线程 LipNet。在 GRID 语料库上,LipNet 实现了 93.4% 的准确度,超过了经验富于的人类唇读者和完后 的 79.6% 的最佳准确度。研究人员还将 LipNet 的表现和听觉受损的会读唇的人的表现进行了比较。平均来看,朋友有助达到 52.3% 的准确度,LipNet 在相同搞笑的话上的表现是这俩成绩的 1.78 倍。除此之外,该模型将可变长度的视频序列转去掉 文本的过程几乎是实时的。

不过,当你沉醉在科幻电影《4001: 太空漫游》里,幻想着像 Hall 一样能读懂人类唇语的飞船主控计算机再次出现 完后 ,雷锋网(公众号:雷锋网)小编必有助给你敲响一一两个警钟——牛津大学的这俩实验很将会具有局限性。这俩实验首先是基于 GRID 语料库完成的,这其含高高 34 个志愿者录的短视频,所有的视频都长 3 秒,使用 DLib 面部检测器和含高 68 个 landmark 的 iBug 面部形状预测器进行防止。每个搞笑的话有的是以从前的模式再次出现 的:命令、颜色、介词、字母、数字、副词等。同类“set blue by A four please”将会 " place red at C zero again " 从前的句式。将会这俩模式下的词句是有限的,只含高了某种不同的命令和颜色。这原应人工智能领域的这俩专家认为,牛津大学这篇论文的研究结果被夸大了,尤其是当朋友都看其中一位研究人员在接受采访时煽情地表示这项成果原应分析朋友将“没法 秘密。”

“事实何必 没法 ,” 研究人员 Yannis Assael 和 Brendan Shillingford 在接受国外科技媒体 The Verge 采访时说道,朋友正在努力地突破“有限的词汇和语法” 。Assael 表示,“现在的数据集虽小,但它却是一一两个好的迹象,将来朋友儿会使用更大的数据集执行任务。”

除此之外,Yannis Assael 和 Brendan Shillingford 有的是强调这俩成果不用用于窥探他人的隐私。很简单,将会唇读有助都看对方的舌头,这俩这俩你有助在光线很好的地方有助够完成这俩行为。“这在技术上来说是非常困难的。” Assael 表示,任何唇读软件都没能做到监视他人的地步,这俩这俩朋友儿有助放心。这俩帧率也是一一两个重要的因素。“除非你拿着一一两个技术很高的相机对准目标对象,一并有助举着一一两个麦克风指向他。”

相反,两位研究者认为在高度学习的帮助下,这俩唇读最好的方法 有助帮助有听力障碍的人,尤其是在嘈杂的环境中。同类在聚会上,LipNet 就有助录制实时通话,并将信息清晰准确地送到朋友的耳中。“假使 你有语音识别和摄像头,在任何地方有助实现这项服务。” Assael 说。他还提到苹果56手机手机的 Siri 或谷歌语音助理或许也会用到从前的技术。没法 在未来,将会你我应该 亲自和计算机对话,假使 动动嘴巴它就能知道你在说哪几个了。

论文戳这里 PDF

 Via the verge

推荐阅读:

只训练一次数据就能识别出物体,谷歌全新 AI 算法“单次学习”

感情的搞笑的话计是否是有的是手机差异化的下一一两个突破口?前微软亚洲工程院副院长为什创业做EMOTIBOT

雷锋网原创文章,未经授权禁止转载。详情见转载须知。