Sora！OpenAI首个AI视频模型炸裂登场，彻底端掉行业饭碗！60秒一镜到底惊人，世界模型真来了？

· 编译 · 梦姐 ·

· Serena ·

原公众号文章地址：https://mp.weixin.qq.com/s/dg3wCst84ZXvy6_v7HGoKQ

【雪球导读】

【News】2月16日，大年初七，OpenAI发布首个AI视频模型Sora，60秒的一镜到底，神级效果生成。网友纷纷惊呼AI视频要变天。

SnowEngine

Part 1

OpenAI官宣

太卷了吧！！

OpenAI和谷歌在短短十几小时内相继揭示出令人瞠目结舌的科技杰作。

整个国内依然熙熙攘攘，未入梦乡的人们经历了一晚上的过山车般的激动与惊喜。

而就在2月16日，大年初七，OpenAI发布了引领未来的划时代之作——Sora，这是首个文生成视频模型。简而言之，AI视频领域将迎来翻天覆地的变革！

Sora不仅能根据文字指令创造出逼真且富有想象力的场景，而且能够生成长达一分钟的超长视频，全部采用一镜到底的制作手法。

相较于Runway Gen 2、Pika等AI视频工具仍在突破几秒连贯性的局限，OpenAI已经创造了史诗级的纪录。

60秒的一镜到底，视频中的女主角和背景人物展现出惊人的一致性，各种镜头变换自如，人物表现出神一般的稳定性，让人叹为观止。

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

OpenAI的成功背后到底有何奥秘？

根据官方网站的介绍，他们通过一次性为模型提供多帧的预测，成功地解决了一个极具挑战性的问题。

这项王炸级的技术不仅仅在技术层面有着深远的影响，更具有彻底颠覆传统的革命性意义，甚至连公司的首席执行官Sam Altman都被深深沉醉其中！

Sam Altman不仅疯狂地在推特上推荐这一技术，而且亲自亮相，为网友即兴生成视频：无论你们提供怎样的prompt，我都能一一呈现出来。这一切都让人感叹，这不仅是技术的进步，更是一场彻底改变游戏规则的创新浪潮。

一位戴着尖顶帽，身披绣有白色星星的蓝色长袍的巫师正在施法，他的一只手射出闪电，另一只手中拿着一本旧书。

在一间拥有电影级灯光设置的充满托斯卡纳乡村风情的厨房里，一位擅长利用社交媒体的奶奶，正在教你制作美味的自制诺奇面。

带你进行一次未来城市的街头巡览，在这里，高科技与自然和谐共处，展现出一种独特的赛博朋克风格。

这座城市洁净无瑕，到处可见的是先进的未来式有轨电车、绚丽的喷泉、巨型的全息投影以及四处巡逻的机器人。

想象一下，一个来自未来的人类导游正带领一群好奇的外星访客，向他们展示人类极致创造力的结晶——这座无与伦比、充满魅力的未来城市。

Part 2

多项技术破纪录

凭借其对语言的深刻理解，Sora能够精准地解读用户指令中所蕴含的需求，并将这些元素巧妙地融入到现实世界的表现形式中。

正是基于这一独特能力，Sora所创造的角色能够表达出丰富的情感！

其制作的复杂场景不仅包括多个角色，还涵盖了特定的动作类型，以及对对象和背景的精准细节描绘。

看，下图中人物的瞳孔、睫毛、皮肤纹理，都栩栩如生，逼真到难以找到任何AI痕迹。

由此可见，视频和真实世界之间是否存在差别，已经变得令人产生疑惑！

Prompt: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic

此外，Sora还能在同一视频中设计多个镜头，同时保持角色和视觉风格的一致性。

值得注意的是，以往的AI视频通常只能生成单一镜头的效果。

然而，OpenAI这次不仅能在多角度的镜头切换中实现对象的一致性，简直可以说是创造了一个奇迹！

这种高度的多镜头一致性，是Gen 2和Pika等先前技术所完全无法企及的……

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

以一个例子为证：“雪后的东京熙熙攘攘。镜头穿过繁忙的街道，跟随着几位享受着美丽雪景和在附近摊位购物的人们。美丽的樱花瓣伴随着雪花在风中飘舞。”

Sora根据这一提示所呈现的画面，将东京在冬日里呈现出梦幻的一幕。

无人机的视角随着一对悠闲散步的情侣在街道上穿梭，左侧传来河岸路上车辆行驶的声音，右侧是顾客在一排小店之间穿梭的场景。

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

可以说，Sora的效果已经达到了令人惊叹的水平，完全超越了过去冷兵器相互碰撞的时代，其他AI视频在这一比拼中完全被甩在了后头。

Part 3

Sora世界模型成真

更为令人震惊的是，Sora似乎已经具备了世界模型的雏形？

通过观察大量数据，它竟然学到了许多关于世界物理规律的知识。

一个引人注目的片段是：在prompt中描述了「一个短毛绒怪物跪在一支红蜡烛旁的动画场景」，同时描绘了怪物的动作和视频的氛围。

在随后的创作中，Sora产生了一个类似皮克斯作品的生物，看起来仿佛融合了Furby、Gremlin和《怪兽公司》中Sully的DNA。

令人惊叹的是，Sora对于毛发纹理的物理特性的理解准确到令人瞠目结舌的地步！

回顾起《怪兽公司》上映时，皮克斯为了创造怪物在移动时超级复杂的毛发纹理，耗费了相当大的心血，技术团队甚至付出了几个月的努力。

而Sora却在轻松自如中实现了这一点，而且更令人惊叹的是，它从未接受过人类的教导！

「它学到了关于3D几何形状和一致性的知识，」项目的研究科学家Tim Brooks表示。

「这并非我们预先设定的——它完全是通过观察大量数据自然而然地学会的。」

Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

借助于DALL·E 3所采用的扩散模型和GPT-4的Transformer引擎，Sora不仅可以生成符合特定要求的视频，而且展现出对电影拍摄语法的自发理解。

这种能力在它独特的讲故事才能中得以体现。

以一个以「色彩缤纷的鱼类和海洋生物充斥的，由纸艺精心构建的珊瑚礁世界」为主题的

视频为例，项目研究员Bill Peebles指出，Sora通过其摄影角度和拍摄时机成功地推动了故事情节的发展。

「视频中实际上发生了多次镜头转换——这些镜头并非后期剪辑拼接而成，而是模型一气呵成地生成的，」他解释道。「我们并没有明确指令它这么做，它却能够自动完成。」

Prompt: A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.

然而，目前的模型并非毫无瑕疵。在模拟复杂场景的物理效果方面，它可能会遇到一些难题，有时难以准确理解特定情境下的因果关系。举例而言，某人吃掉饼干的一部分后，饼干可能看起来仍然完整无损。

此外，模型在处理空间细节，如区分左右时可能会出错，也可能在描述随时间变化的事件，如特定的摄影机动作轨迹时，表现不够精确。

好在，模型还并不完美，这也许是值得庆幸的。否则，虚拟与现实的界限将会变得更加模糊，我们还能清晰地区分二者吗？

然而，毋庸否认的事实摆在眼前：一个能够理解和模拟现实世界的模型，也意味着人工通用智能（AGI）似乎已经离我们不远了。

Part 4

Sora技术介绍

Sora是一种先进的扩散模型，能够通过逐步去除一开始被视为静态噪声的视频中的杂音，逐渐生成视频。

Sora不仅能够一次性生成完整的视频，还能延长已生成视频的时长。

通过让模型能够预见多帧内容，我们的团队成功解决了确保视频中的主体即便暂时消失也能保持一致性的难题。

和GPT模型相似，Sora采用了Transformer架构，从而实现了卓越的性能扩展。

OpenAI将视频和图像拆分成更小的数据单元——「patches」，每个「patches」相当于GPT中的一个「token」。

这种统一的数据表示方法使得我们能够在更广泛的视觉数据上训练扩散Transformer，覆盖了不同的持续时间、分辨率和纵横比。

Sora基于DALL·E和GPT模型的研究成果，引入了DALL·E 3的重标注技术，通过为视觉训练数据生成详细描述的标题，使模型更加准确地遵循用户的文本指令生成视频。

除了能够根据文本指令生成视频外，这款模型还能将现有的静态图像转化成视频，以精准而详尽的方式赋予图像中的内容生动的动画。模型还能扩展现有视频或补全缺失的帧。

Sora为理解和模拟现实世界的模型奠定了基础，OpenAI认为这是迈向实现通用人工智能（AGI）的重要步骤。

Part 5

Sora作品欣赏

一列火车穿越东京郊区时，窗户上反射出的迷人景象。

Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.

在雪白的草原上，数只巨大的羊毛猛犸象缓缓行进，它们长长的毛发在微风中轻轻飘扬。远处可见白雪皑皑的树木和雄伟的雪山，午后的阳光透过薄云洒下，为这个场景增添了一抹温暖的光辉。低角度的拍摄使得这些庞大的毛茸茸动物显得格外宏伟，景深效果使观者如沉浸其中。

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.

Prompt: Aerial view of Santorini during the blue hour, showcasing the stunning architecture of white Cycladic buildings with blue domes. The caldera views are breathtaking, and the lighting creates a beautiful, serene atmosphere.

Prompt: A young man at his 20s is sitting on a piece of cloud in the sky, reading a book.

Prompt: A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.

Prompt: The camera directly faces colorful buildings in burano italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.