OpenAI 的 Sora 可以将Prompt文字转化为逼真的视频

科技1年前 (2024)更新 mofei

13.6K 0 0

OpenAI 进军生成式 AI 视频领域是令人印象深刻的第一步。

我们已经知道OpenAI 的聊天机器人无需上法学院即可通过律师资格考试。现在，恰逢奥斯卡颁奖典礼，一款名为 Sora 的新 OpenAI 应用程序希望无需上电影学校就能掌握电影。目前，Sora 是一个研究产品，它正在寻找一些精选的创建者和一些安全专家，他们将对其进行红队检查，以查找安全漏洞。OpenAI 计划在某个未指定的日期向所有想成为导演的人提供它，但它决定提前预览。

其他公司，从谷歌等巨头到Runway等初创公司，都已经推出了文本到视频的人工智能项目。但 OpenAI 表示，Sora 的独特之处在于其惊人的真实感（这是我在其竞争对手中从未见过的），以及它能够生成比其他模型通常生成的简短片段更长的剪辑（长达一分钟）。与我交谈的研究人员不会透露渲染所有视频需要多长时间，但当被追问时，他们将其描述为“出去吃墨西哥卷饼”，而不是“休息几天”。如果我看到的精心挑选的例子是可信的，那么付出的努力是值得的。

OpenAI 不让我输入自己的提示，但它共享 Sora 力量的四个实例。（没有一个达到了所谓的一分钟限制；最长的是 17 秒。）第一个来自一个详细的提示，听起来像是痴迷的编剧的设置：“美丽的、白雪皑皑的东京城市很繁华。镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天并在附近的摊位购物。美丽的樱花花瓣随着雪花在风中飞舞。”

使用 OpenAI 的 Sora 制作的 AI 生成视频。 由 OPENAI 提供

其结果是在雪花和樱花共存的神奇时刻，令人信服地看到东京的真实面貌。虚拟摄像机就像固定在无人机上一样，跟踪一对夫妇在街景中缓慢漫步。其中一名路人戴着口罩。汽车在他们左边的河边道路上隆隆驶过，右边的购物者在一排小商店里进进出出。

它并不完美。只有当你多次观看这段视频时，你才会意识到，如果虚拟摄像机继续运行，主角——一对在白雪覆盖的人行道上漫步的情侣——就会面临困境。他们占据的人行道似乎是死胡同；他们必须跨过一个小护栏，才能到达右侧一条奇怪的平行走道。尽管存在这个轻微的故障，东京的例子在世界建设中仍然是一个令人兴奋的练习。未来，制作设计师将争论它是一个强大的合作者还是一个工作杀手。此外，视频中的人物完全由数字神经网络生成，没有特写镜头，而且他们没有任何表情。但 Sora 团队表示，在其他情况下，他们也让假演员表现出真实的情感。

其他剪辑也令人印象深刻，特别是其中一个要求“一个毛茸茸的短怪物跪在红蜡烛旁边的动画场景”，以及一些详细的舞台指示（“睁大眼睛和张开嘴”）以及对所需氛围的描述。剪辑。索拉创造了一种皮克斯风格的生物，它似乎具有《怪兽电力公司》中菲比、小魔怪和萨利的 DNA 。我记得当后一部电影上映时，皮克斯大力宣传了在怪物移动时创建怪物皮毛的超复杂纹理是多么困难。皮克斯的所有巫师花了几个月的时间才把它做好。OpenAI 的新型文本转视频机器……就做到了。

“它了解 3D 几何形状和一致性，”该项目的研究科学家蒂姆·布鲁克斯 (Tim Brooks) 在谈到这一成就时说道。“我们并没有将这一点纳入其中——它完全是通过查看大量数据而得出的。”

人工智能生成的视频是根据提示制作的，“动画场景的特写是一个毛茸茸的小怪物跪在一根融化的红色蜡烛旁边。艺术风格是 3D 和现实的，重点是灯光和纹理。这幅画的基调是惊奇和好奇，怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉，就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。” 由 OPENAI 提供

虽然场景确实令人印象深刻，但 Sora 的能力中最令人震惊的是它尚未接受过训练的能力。在 OpenAI 的 Dalle-3 图像生成器使用的扩散模型版本以及基于 Transformer 的 GPT-4 引擎的支持下，Sora 不仅制作出满足提示要求的视频，而且以某种方式做到这一点这表明了对电影语法的新兴掌握。

这转化为讲故事的天赋。在另一个视频中，该视频是根据“一个渲染华丽的珊瑚礁纸艺世界，充满了色彩缤纷的鱼类和海洋生物”的提示而创建的。该项目的另一位研究员比尔·皮布尔斯指出，《索拉》通过镜头角度和时间安排创造了叙事主旨。“实际上有多个镜头变化 – 这些变化不是缝合在一起的，而是由模型一次性生成的，”他说。“我们没有告诉它这样做，它只是自动这样做了。”

人工智能生成的视频，其提示是“渲染华丽的珊瑚礁纸艺世界，充满了色彩缤纷的鱼类和海洋生物。” 由 OPENAI 提供

在另一个我没有看到的例子中，索拉被提示去参观动物园。皮布尔斯说：“一开始，大标牌上有动物园的名字，然后逐渐平移，然后进行了多次镜头变化，以展示生活在动物园里的不同动物。”电影的方式并没有被明确指示这样做。”

OpenAI 团队没有展示并且可能在相当长一段时间内不会发布的 Sora 功能是从单个图像或一系列帧生成视频的能力。“这将是提高讲故事能力的另一种非常酷的方式，”布鲁克斯说。“你可以准确地画出你的想法，然后将其变为现实。” OpenAI 意识到此功能还有可能产生深度伪造品和错误信息。“我们将非常谨慎地考虑由此带来的所有安全影响，”皮布尔斯补充道。

希望 Sora 对内容有与 Dall-E 3 相同的限制：没有暴力、没有色情、没有挪用真人或指定艺术家的风格。与 Dall-E 3 一样，OpenAI 将为观看者提供一种方法来识别输出是否是 AI 创建的。即便如此，OpenAI 表示，安全性和准确性是一个持续存在的问题，其规模不只限于一家公司。首席研究员兼 Dall-E 团队负责人 Aditya Ramesh 表示：“解决错误信息的方法需要我们采取一定程度的缓解措施，但也需要社会的理解和社交媒体网络的适应。”

人工智能生成的视频，提示“几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近，它们长长的毛茸茸的皮毛在风中轻轻飘动，远处覆盖着积雪的树木和戏剧性的雪山，午后的阳光洒满了缕缕的阳光”。远处高高的云层和太阳营造出温暖的光芒，低摄像头视角令人惊叹地捕捉到了大型毛茸茸的哺乳动物，并具有美丽的摄影效果和景深。” 由 OPENAI 提供

另一个潜在的问题是Sora制作的视频内容是否会侵犯他人的版权作品。“训练数据来自我们已授权的内容以及公开的内容，”Peebles 说。当然，许多针对 OpenAI 的诉讼的核心在于“公开可用”的版权内容对于人工智能训练是否公平。

如果文字转视频会威胁到实际的电影制作，那也需要很长一段时间。不，你无法通过将 120 个一分钟长的 Sora 剪辑拼接在一起来制作连贯的电影，因为模型不会以完全相同的方式响应提示 – 连续性是不可能的。但时间限制对于 Sora 和类似的程序改造 TikTok、Reels 和其他社交平台来说并不是障碍。“为了制作一部专业电影，你需要非常昂贵的设备，”皮布尔斯说。“这种模式将使在社交媒体上制作视频的普通人能够制作出非常高质量的内容。”

就目前而言，OpenAI 面临着一项艰巨的任务，即确保 Sora 不是误传的火车残骸。但在那之后，漫长的倒计时开始了，直到下一个克里斯托弗·诺兰或席琳·宋因促进人工智能模型的魔法而获得小雕像。请给我信封！