AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业( 二 )

AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业
文章插图
目前,我们还没有创造出如此高质量的‘AI音频引擎’ 。
Jim Fan挖出了5年前来自MIT团队的一项关于‘The Sound of Pixels’的研究,或许从这里可以找到一些灵感 。

AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
这个项目中 , 研究人员提出了像素级声源定位系统PixelPlayer 。
通过结合声音和图像信息 , AI能够以无监督的方式从图像或声音中识别目标、定位图像中的目标,甚至分离目标视频中的声源 。
当你给定一个输入视频,PixelPlayer可以联合地将配音分离为目标组件,以及在图像帧上定位目标组件 。
值得一提的是,它允许在视频的‘每个像素’上定位声源 。
AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
具体来说,研究人员利用了图像和声音的自然同时性,来学习图像声源定位模型 。
PixelPlayer学习了近60个小时的音乐演奏,包括独奏和二重奏 。它以声音信号作为输入,并预测和视频中空间定位对应的声源信号 。
在具体训练过程中 , 作者还利用了自然声音的可加性来生成视频,其中构成声源是已知的 。与此同时,还通过混合声源来训练模型生成声源 。
AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
这仅是视觉-音频联合学习(Audio-Visual Learning)研究中的一瞥 , 过去在这一方向领域的研究也是数不胜数 。
比如 , 在ECCV 2018被接收的Oral论文‘Learning to Separate Object Sounds by Watching Unlabeled Video’,同样使用了视觉信息指导声源分离 。
AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
比起MIT的那项研究,这篇论文除了在音乐 , 还在自然声上进行了实验 。
以往的研究,都将为未来视频-音频完成精准映射进一步铺路 。
正如这几天被人们炒的火热的Sora模型,背后架构采用的是Diffusion Transformer一样,正是基于前辈们的成果 。
话又说回来 , 网友发出疑问 , ‘那得需要多少年,LLM才能完全遵守物理达则中的所有可能参照系’?
AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
别慌!
有没有可能OpenAI早已接近,甚至是实现AGI,只不过不想让我们知道?
AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
 
AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
估值11亿刀,前谷歌大佬创AI语音初创公司
前文提到的ElevenLabs,是由前谷歌机器学习工程师Piotr D?bkowski和前Palantir部署策略师Mateusz Staniszewski,在2022年共同创立的一家利用AI实现语音合成与文本转语音的公司 。
这两位创始人都来自波兰,他们在看到美国电影不尽人意的配音后,萌生了创建ElevenLabs的想法 。
尽管ElevenLabs没有固定办公地点并且仅有15名员工 , 但它却在2023年6月以约1亿美元估值成功筹集到了1900万美元的 A 轮融资 。
到了2024年1月22日 , ElevenLabs又在B轮融资中筹集了额外的8000万美元,使估值达到了11亿美元 。同时,公司还宣布推出了一系列新产品 , 包括声音市场、AI 配音工作室和移动应用等 。
AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

文章插图
自去年1月发布beta版平台以来,ElevenLabs便受到了创作者们的热捧 。
2023年3月,喜剧演员Drew Carey通过ElevenLabs的声音克隆工具 , 在他的广播节目《Friday Night Freakout》中复刻了自己的声音 。
2023年3月,流媒体自动化服务Super-Hi-Fi携手ElevenLabs,利用后者的软件和ChatGPT生成的提示词,为其虚拟DJ配音,推出了全自动的‘AI Radio’广播服务 。
6月13日,Storytel宣布与ElevenLabs达成独家合作,后者将专门为Storytel的核心市场量身定制声音,制作AI叙述的有声读物 。
在游戏领域,ElevenLabs正与瑞典的Paradox Interactive和英国的Magicave等开发商进行合作 。
ElevenLabs的技术还被用于多语言视频配音,帮助内容创作者准确复制几乎任何语言的任何口音 。此外,明星粉丝也通过ElevenLabs使用他们偶像的声音创作鼓舞人心的信息 。
OpenAI下一次颠覆,又是万亿美元产业?
还记得ChatGPT诞生之后,OpenAI随后为其‘联网’,并发布了全新的插件功能 。


推荐阅读