最近,OpenAI发布了一款名为Sora的AI视频生成模型,其强大的功能和优秀的性能引起了业界的广泛关注。Sora的发布,不仅预示着AI在视频生成领域的重大突破,更有可能引领一场视觉革命。
一、Sora介绍
Sora是OpenAI继DALL·E 3之后的又一力作,它继承了DALL·E 3的画质和遵循指令能力,同时更进一步,能生成长达1分钟的视频,其画质是以假乱真。这一特性使得Sora在视频生成领域具有独特的优势,它可以根据用户的指令,快速生成高质量的视频内容,为创作者提供更多可能。
二、Sora工作原理
1、视觉数据转换
Sora将视频数据转换为空间时间补丁(patches),这些补丁类似于大型语言模型(LLM)中的文本标记。视频首先被压缩到一个低维潜在空间,然后分解成空间时间补丁。
2、视频压缩网络
Sora训练了一个网络来降低视觉数据的维度,这个网络将原始视频输入并输出一个在时间和空间上都被压缩的潜在表示。Sora在生成视频时也使用这个压缩的潜在空间。
3、扩散模型
Sora是一个扩散模型,它通过预测输入的噪声补丁(以及文本提示等条件信息)来生成清晰的补丁。扩散模型在多个领域(包括语言建模、计算机视觉和图像生成)中已经显示出了显著的扩展性。
4、文本到视频生成
Sora能够理解文本提示,通过训练一个高度描述性的标题生成器模型,然后使用它为训练集中的所有视频生成文本标题。这提高了视频的文本忠实度和整体质量。
5、图像和视频编辑
Sora可以接受图像或视频作为输入,执行各种图像和视频编辑任务,如创建循环视频、动画静态图像、向前或向后扩展视频等。
6、图像生成
Sora还能够生成图像,通过在空间网格中排列高斯噪声的补丁,生成具有一帧时间范围的图像。
7、模拟能力
Sora在大规模训练时展现出一些有趣的新兴能力,例如3D一致性、长程一致性和物体持久性,以及与世界互动的能力,如模拟视频游戏中的动态。