网络机器人吧社区

造假者正在使用AI和机器学习来制造更好的假货

小电视科技 2018-11-08 11:29:05

现在在网上做东西真是太容易了,这就是后真相时代的生活。但是机器学习(ML)和人工智能(AI)方面的最新进展使问题复杂化了。这不仅仅是假消息,而是各种媒体和消费品现在都可以通过人工智能来消除。从音轨和视频剪辑到金融交易和假冒产品 - 甚至您自己的手写都可以用惊人的精确度来模仿。但是如果我们能够利用创造这些假货的相同计算机系统来轻易揭示它们呢?


从此以后,人们一直在嘲弄欺骗和恶作剧。人类的历史充满了假先知,蛊惑人心,蛇油贩子,贪污者和骗子。问题是,如今,任何具有阴谋论和假冒品牌的小商贩都可以在YouTube上噱头十足,并立即吸引全球观众。虽然“事实”的定义现在取决于你在说什么,但大多数人在今年1月20日之前同意的一件事是确凿证据的真实性。视频和录音一直被认为是可靠的证据来源,但是由于人工智能的最新进展,这种情况正在改变。


2016年7月,华盛顿大学的研究人员开发了一套机器学习系统,不仅可以精确地合成人的声音和声音,还可以将他们的单词同步到视频中。基本上,你可以伪造任何人的声音,并创建一个视频,他们说任何你想要的。以团队的演示视频为例。他们使用奥巴马总统的每周演讲片段训练ML系统。该回归神经网络学会了各种音频功能各自的口形关联。从那里开始,CGI的嘴巴动作,在三维姿势匹配的帮助下,将动画嘴唇移植到总统的另一个视频上。基本上,他们能够生成一个真实的视频只使用其相关的音轨。


虽然该团队对这种技术的潜在滥用行为进行了大量的反击,但是他们在脑海中使用了更为普通的用途。“从音频中生成高质量视频的能力可能会大大减少视频编码/传输所需的带宽量(占当前互联网带宽的很大比例),”他们在他们的研究中提出:合成奥巴马:从音频学习唇音同步。“对于有听力障碍的人来说,视频合成技术可以使电话听音口吻,数字技术是人类娱乐的核心,如电影特效和游戏。


威斯康星大学不是唯一正在研究这种技术的机构。去年,斯坦福大学的一个团队推出了Face2Face系统。与UW从音频生成视频的技术不同,Face2Face从其他视频生成视频。它使用一个普通的网络摄像头来捕捉用户的脸部表情和嘴巴形状,然后使用这些信息将目标YouTube视频变形,以最好地匹配用户的表情和语音 - 所有这一切都是实时的。


基于AI的音频 - 视频转录是一个双向的街道。就像UW的系统设法通过音频信号生成视频一样,麻省理工学院CSAIL的一个小组也想出了如何从静音视频卷轴上创建音频。而且做得够好,以愚弄人类观众。


这篇论文的主要作者Andrew Owens在接受“ 麻省理工学院新闻 ”采访时说:“当你用手指碰着葡萄酒杯时,它所产生的声音就反映出它有多少液体。“模拟这种声音的算法可以揭示关于物体形状和材料类型的关键信息,以及它们与世界相互作用的力量和运动。


麻省理工学院的深度学习系统经过几个月的训练,使用了1000个包含46,000个声音的视频,这些声音是由不同的物体刺戳,敲击或用鼓棒刮伤的。像UW算法一样,MIT 学会了将不同的音频属性与特定的屏幕上的操作相关联,并在视频播放时合成这些声音。当用真实的声音在线对视频进行测试时,人们实际上选择了真实的音频,而不是基准算法的两倍。


麻省理工学院的团队认为,他们可以利用这一技术来帮助机器人提高态势感知能力。欧文斯说:“一个机器人可以看人行道,本能地知道水泥很硬,草地很软,因此知道如果踩到其中任何一个,会发生什么事情。“能够预测声音是能够预测与世界物理交互的后果的重要的第一步。”


音频合成的研究不限于大学,一些大公司也在研究这项技术。例如,Google开发了Wavenet,这是一种“原始音频波形的深度生成模型”。计算机生成的文本到语音(TTS)系统的第一次迭代是“连接”TTS。这是一个单独的人记录各种语音片段的地方,这些片段被送入数据库,然后由计算机重新组成单词和句子。问题是,输出听起来更像是MovieFone的家伙(问你的父母)而不是真人。


另一方面,波形训练的是人们说话的波形。系统采样数据点的记录每秒高达16000次。为了输出声音,Waveform使用一个模型来预测下一个声音将基于之前发出的声音。这个过程在计算上是昂贵的,但是与传统的TTS方法相比确实产生了优越的音频质量。


编辑:电视的看看


Copyright © 网络机器人吧社区@2017