近日,好莱坞对AI文字生成视频模型Sora表现出极高的热情,该模型具备令人惊叹的能力,仅需几行简短的文字,便可在短时间内创作出媲美电影预告片的生动视频。
起因是,美国开放人工智能研究中心(OpenAI)公布了其最新项目——AI文字生成视频模型Sora。(Sora是一个日语单词,意为“天空”,创造者选择这个名字,旨在激发人们对无限创造潜力的想象。)
泰勒·佩里(Tyler Perry)原计划在亚特兰大斥资8亿美元扩建工作室,但在目睹了Sora的强大能力之后,他暂时搁置了这一计划。
身为一位具有远见的企业家,佩里敏锐地捕捉到Sora发展中所蕴含的无限机遇。但作为雇主、演员和电影制片人,他也想敲响警钟:随着技术的迅速进步,许多传统工作岗位恐将面临消失的风险。
Sora所生成的视频令人叹为观止。画面中,长毛猛犸象穿越层层叠叠的大雪,缓缓向你靠近;当镜头俯瞰建筑物时,展现出白雪皑皑、人群熙攘的东京街头景象。另一个场景则是一个绚烂多彩的珊瑚礁纸工艺品世界,五颜六色的鱼儿和海洋生物在其中穿梭游弋。
值得一提的是,这段令人印象深刻的20秒视频短片,其灵感来源于OpenAI精心编写的特定提示。
人工智能社区的电影制作人与开发人员认为,Sora是生成式AI领域的巨大飞跃和关键性进展,该工具让很多曾经遥不可及的事情,如今都变成了现实。
“这比我想象的要提前了整整18个月。”Fable工作室的人工智能制作人爱德华·萨奇(Edward Saatchi)坦言,“我被深深地震撼了。如今,人们对于生成式AI所创造出来的简短片段或图像的狂热和兴奋正在逐渐‘消退’,相反,他们开始更加现实地思考,究竟何时才能在电影院里欣赏到一部完全由AI制作的电影。”
Sora无疑是这场游戏规则的改变者,引领着整个行业朝着全新的方向前进。“萨奇表示,“最新的30个片段还不错,但并未达到那种精雕细琢的程度。”
尽管此前有传闻称OpenAI正在研发一款视频工具,但这次Sora的发布依然出乎众人意料,甚至连OpenAI内部其他团队的成员都全然不知。
目前,Sora尚未对公众全面开放,仅向红队成员(red teamers,指的是误导信息、仇恨内容和偏见内容等方面的专家)和部分创意人士(视觉艺术家、设计师、电影制作人)开放。这些受邀者致力于探索Sora可能存在的滥用风险,以确保其未来应用的合理性和安全性。
电影制作人保罗·特里罗(Paul Trillo)凭借其广受好评的人工智能短片《谢谢你不回答》而出名,他同时为多家人工智能公司提供工具开发方面的专业咨询。
对于Sora所生成的视频质量和功能,他表示印象深刻。然而,在Sora成为一个开源应用程序,允许创作者完全定制和控制之前,特里罗对其能否颠覆整个行业持中立态度,他认为Sora可能只是一个“伟大科技公司的产品演示”。
特里罗强调,“从孤立的片段到制作一个以故事形式运作的工具,Sora还有漫长的路要走,以确保观众能够完全沉浸在故事当中。对于那些初涉电影制作、渴望尝试并验证自己创意,但资源有限的人来说,Sora无疑提供了一个宝贵的平台。然而,从专业的视角出发,我对它持保留态度,因为这涉及到对创作过程的控制,以及能否真正实现自己的意图和愿景。”
相较于Runway或Meta、谷歌等竞争对手的模型,Sora的表现在多个方面均有所超越。其高分辨率的特性使得生成的视频在像素美感上更胜一筹,尤其是在皮肤纹理、头发、倒影、水、树叶等细节的处理上,Sora展现出了显著的优势。
此外,Sora还能够制作长达60秒的视频,打破了以往3-8秒的限制,进一步拓宽了其应用场景和实用性。
萨奇指出,“这是迄今为止最大的奇迹,预示着人工智能电影将不再局限于两分钟的短片,而是逐渐迈向电影或电视短片的领域。我们曾受限于使用3-8秒的镜头来叙述故事,如今,Sora的出现打破了这一局限,为我们开启了叙述更复杂故事的新篇章。”
Sora不仅具备出色的生成能力,更对世界上事物的运动规律有着深刻的理解。与其他生成式AI视频工具相比,Sora的独特之处在于它能够在提示中添加更为具体的导演动作或模拟摄像机运动的指令。
据萨奇所言,Sora的卓越之处体现在其鲜明的背景角色、逼真的动作以及主题间的互动与反应。OpenAI所发布的视频中,海浪拍打悬崖的场景、小动物们嬉戏的画面,以及行驶中火车车窗上的倒影,无不生动展示了Sora在这方面的强大实力。
特里罗还表示,他对Sora所展现的“时间一致性”感到震惊。传统的AI视频工具往往难以准确理解镜头从起始到结束的全过程,它们只能依靠对单独帧的推断(或猜测)来模拟运动。这往往导致视频中出现小瑕疵,类似于“Gumby legs”的现象。在Sora生成的某个视频中,一个女人的腿在行走过程中发生了互换位置的情况,当涉及到跑步等动作时,其他模特的步态却流畅自然。
《天桥》在呈现时间一致性方面更为出色,但特里罗认为这更像是一种“错觉”。OpenAI将Sora描述为一个基于时空的“世界模型”,而非传统的文本到视频生成器。特里罗认为,“如果想要生成的视频被认真对待,就必须具备这种连贯性和控制力,不能仅仅是基于猜测。Sora给人的感觉是,它有一条清晰明确的路径,能够准确捕捉并展现事物的运动和变化。”
另一个被特里罗称为重大突破的是Sora将提示信息分解成时间的能力。在这段视频中,一只生物在森林中跳跃,随后遇到了一朵蘑菇,蘑菇上有仙女在跳舞。Sora能够理解复杂提示中的事件顺序,并准确地呈现出多个事件应该发生的顺序,这使其“更接近于成为一个可用的讲故事工具”。
除了上述功能外,Sora还具备无缝视频循环和采样灵活性等特性。其“无缝视频循环”功能源于其深入理解运动规律的能力,使得生成的视频能够流畅循环,无明显的断点或跳跃。而“采样灵活性”则为用户提供了极大的便利,允许他们从不同的视角、帧或不同的长宽比来查看同一提示,从而得到更为丰富和多样化的视觉体验。
此外,Sora还提供视频到视频的编辑功能,允许用户轻松地将多个视频片段连接起来。OpenAI为此提供了一个生动的演示,一架无人机在罗马斗兽场上空翱翔,紧接着一只蝴蝶轻盈地飘浮在绚丽的珊瑚礁之上。两个截然不同的视频场景在Sora的编辑功能下被无缝融合,呈现出令人惊叹的视觉效果。
当多数人的目光聚焦于Sora视频中的主角时,特里罗却被视频的背景所吸引。在人工智能领域,一个常见的问题就是“遮挡”,即前景物体导致背景物体的改变或消失。
尽管OpenAI承认Sora在这一方面仍有待完善,但特里罗观察到在Sora生成的视频中,一个人从墙前的文字旁走过,而文字却始终保持清晰。这表明Sora不仅仅是一个基于扩散的模型,而是融合了更传统的3D动画环境和特效技术的混合体。
那么,对于好莱坞而言,如今是否应该比几周前更加担忧被机器所取代?
特里罗说,“这种变革令人不安,但同时又很难不为之兴奋。”
Sora目前仍存在明显的短板。首要问题在于缺乏对话功能。萨奇指出,“人工智能在模拟人类嘴部动作方面仍面临巨大挑战,实现这一点是它发展的关键所在。虽然Sora能够创造出令人叹为观止的60秒镜头,但是并不足以支撑起一部连贯的电影。”
特里罗进一步解释道,“在博客文章中,Sora的表现或许令人眼前一亮,但如果在同一地点为同一人物拍摄10张照片,我们便能看出它的实际表现如何。”
Sora看起来也有些过于完美,特里罗认为,“它可能缺乏其他人工智能工具所拥有的不可预测性、幻觉或想象力。由于OpenAI非常担忧该工具被滥用,因此设置了严格的参数来防止涉及性和暴力有关的应用程序。这使得电影制作人在尝试向人工智能解释某些场景时感到失望,例如,他们曾试图告诉人工智能这是番茄酱而非血液,但结果并不尽如人意。
萨奇指出,“我们有了全新的《海斯电影制作守则》,虽然人工智能可能制作出极具戏剧性的电影,但这对其发展来说并非好事。”
任何人工智能工具的好坏都取决于它的界面设计。如果Sora的定制功能有限,或者操作不够流畅,它就不会被电影制作者或家庭创作者采用。不过,特里罗说到,“这些都是暂时的障碍,未来Sora山寨版可能会得到广泛应用。”
特里罗预测道:“或许两年后,我们将看到一个开源的Sora模式,它拥有更多的控制能力,能为电影制作人提供所需的细节。”
即便好莱坞现在有意使用生成式AI,但是由AI创造的内容在版权方面仍面临挑战。Klaris Law律师事务所的执行合伙人爱德华·克拉里斯(Edward Klaris)律师指出,“电影公司必须谨慎行事,因为他们创作的任何内容都可能被视为机器创作,从而无法获得版权保护。”
他表示,“事实上,在创作公共领域的作品,将生成式AI纳入工作流程确实存在一定的风险。”
尽管电影行业尚未达到被颠覆的程度,但市场营销领域已经开始感受到Sora带来的影响。Sora的60秒短片便是一个绝 佳的广告示例。特里罗警告说,“电影行业应该对此保持警惕。”
随着Shutterstock与OpenAI建立合作关系,Sora的大多数模型可能会基于OpenAI的素材库进行训练。特里罗设想,在不久的将来,Shutterstock可能会推出一项服务,允许用户创建AI生成的视频,而非仅依赖现有的库存素材。
特里罗坚信,“尽管Sora可能为行业吸引新人,但真正成功的艺术家仍是那些掌握传统技能并怀揣独特愿景的人。我希望人们能够获得相同的报酬,而无需承受巨大的压力。”
作为开发能够自动生成《南方公园》剧集的人工智能工具的研究团队成员,萨奇认为,“我们正逐步迈向自动化制作人的世界,在没有人类真实投入的情况下,AI生成的内容很难在电影和电视领域获得关注。”
电影是一种协作媒体,而完全自动化的内容将失去协作的本质。
萨奇指出,“一年前,AI的支持者们声称一切都将发生改变,但到目前为止,并没有发生太大的变化。每隔三年,硅谷都会告诉好莱坞,他们将彻底颠覆一切,但好莱坞总是能够幸存并蓬勃发展。”