5分钟带你了解Sora，为何李一舟能借此爆火-日常-AI论坛

5分钟带你了解Sora，为何李一舟能借此爆火

夏天

发布于 2月前 864 1

前言

Sora横空出世之后，李一舟上了热搜。一张中美“两大AI巨头”图片在网上热传，图中二人分别为OpenAI的首席执行官萨姆奥特曼和李一舟，这张图疑似“内涵”李一舟。有媒体引用一则数据称，“据飞瓜数据显示，李一舟售卖的AI课《每个人的人工智能课》一年内卖出约25万套，销售额约5000万。”近几天，关于李一舟的争议可谓一波接一波。

5分钟带你了解Sora，为何李一舟能借此爆火

有人说：“中国任何一家估值几十亿上百亿的大模型公司，2023年的营收水平大概率比不过这位抖音卖课的李博士，有点魔幻。”

普通人学习AI、使用AI的门槛真的那么高吗？不见得。原因种，种AI的热潮让大众盲目，落后就要挨打的观念也是原因之一，并且，从哪里获取AI、如何学习AI就像寻宝一样困难。

初识Sora

继ChatGpt3.5到4.0PlusOpenAI 在2024年2月16日正式宣布推出文本生成视频的大模型 Sora:

官网：openai.com/sora

5分钟带你了解Sora，为何李一舟能借此爆火

OpenAI的官网介绍称，使用这款模型可以用文本生成长达一分钟的视频，视频可具有多个角色、特定类型的运动、精确主题和背景细节等复杂场景。

sora原理

Sora要解决的任务其实非常好理解，就是给定一段文本，模型需要根据该文本生成相应的视频，简单说就是text-to-video（t2v）。t2v本身并不是一个新问题，很多厂商都在研究t2v模型，只是当前的t2v模型生成的视频普遍质量较差，很难到达工业应用级别。在Sora出现前大家的普遍认知是：t2v是一个很难的任务，工业级别t2v模型（或者说能真正实用的t2v模型）短时间内应该很难实现。然而，OpenAI又又又一次打了所有人的脸，Sora的发布意味着，这一天已经来了。

基于Transformer架构

简单描述Sora训练建模过程，就是：将原始视频通过一个视觉编码器（visual encoder）编码到隐空间（latent space）形成隐时空块（spacetime latent patches），这些隐时空块（结合text信息）通过transformer做diffusion [2, 3, 4]的训练和生成，将生成的隐时空块再通过视觉解码器（visual decoder）解码到像素空间（pixel space）。所以整个过程就是：visual encoding -> latent diffusion with diffusion transformer (DiT) [4] -> visual decoding。

扩散模型和训练稳定性

Sora模型采用了扩散模型的方法，与传统的GAN模型相比，具有更好的生成多样性和训练稳定性。扩散模型通过逐步消除噪声来生成视频，这样可以有效地提高生成的视频质量。同时，通过采用扩散模型，Sora还能够生成更加逼真的视频场景。

Sora可以灵活地采用不同时长、分辨率和长宽比的视频

OpenAI发现之前的方法大多采用固定尺寸的视频（比如4s的256x256视频）去训练模型，和现实中任意长度、长宽比有较大gap，而采用原始尺寸的视频训练模型效果更好。得益于Sora采用的transformer结构，Sora可以输入任意多个visual patches（初始为noise patches），即可生成任意尺寸的视频。

生成视频的数据处理和压缩

生成视频需要处理大量的数据，对于这一问题，Sora模型采用了数据处理和压缩的技术。通过对视频数据进行处理和压缩，Sora能够在保持视频质量的同时，减少存储空间的占用。

视频质量和逼真度

Sora模型在生成视频的过程中，注重保持视频质量和逼真度。通过采用Transformer架构和扩散模型的方法，Sora能够生成更加连贯、且具有很高逼真度的视频场景。这使得Sora在应用领域具有广泛的潜力，比如可以用于影视制作、游戏开发等方面。

参考链接：www.openai.com/research/so…

sora作品展示

案例：

1.Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

翻译：一位时尚的女性走在东京街头，周围是温暖闪亮的霓虹灯和活力四射的城市标识。她穿着一件黑色皮夹克，一条长长的红色连衣裙，搭配黑色靴子，并背着一个黑色手提包。她戴着墨镜，涂着红色口红。她步履自信，悠然自得地走着。街道潮湿而反光，呈现出丰富多彩的灯光的镜面效果。许多行人在街上走动。

5分钟带你了解Sora，为何李一舟能借此爆火

Sora应用前景

视频创作：用户可以根据文本生成高质量视频；
扩展视频：可以在给定的视频或图片基础上，继续向前或向后延申视频；
Video-to-video editing：例如将SDEdit [7]应用于Sora，可以很容易改变原视频的风格；
视频连结/过渡/转场：可以将两个视频巧妙地融合到一起，使用Sora在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡；
文生图：图像可以视为单帧的视频，故Sora也能实现文生图。

可以预见的是，当sora正式开放之后，短视频平台将会涌现非常多的sora生成的视频，又会有许多普通人收获一桶金。

Sora带来的行业巨震

短视频内容创作可能进入新的时代：Sora可以提供丰富的视频素材；
视频剪辑和编辑：Sora具备相关应用能力；
更逼真的数字人：用户可以得到自己的“理想型”；
娱乐化：从图像一键生成视频；
游戏行业：游戏引擎受到Sora挑战；
图形学：未来可能不复存在。

sora使用教程

使用Sora前的准备工作

在开始之前，确保您已经拥有了OpenAI账目，并获得了Sora的访问权限。准备好您想要转化成视频的文本描述，记住越详细越好。

Sora使用步骤一：文本描述

1.描述视频内容：首先，您需要对想要在视频中展示的内容进行清晰的描述。这包括场景、人物、动作以及整体基调。提供的细节越详细，Sora就能更好地理解您的愿景。

2.完成文本描述和自定义设置：在完成文本描述后，您可以点击“生成视频”按钮。Sora将开始处理您的请求，这个过程可能需要几分钟时间。

Sora使用步骤二：生成视频

预览以及编辑视频：视频生成后，您可以对其进行预览。如果需要，您还可以灵活地编辑和更改生成的场景，以确保最终视频符合您的期望。

Sora 常见问题

目前的视频生成模型普遍生成的motion都不太好，最简单的例子就是“人走路”，大部分模型无法生成连贯的、长时间的、合理的人行走的过程。而Sora生成的结果在连贯性、合理性上相比之前的模型都有着断代的领先。那到底是什么促使了这样的结果呢？是模型尺寸的scale up吗？需要scale up到什么size？还是数据的收集和清洗呢？以及要做到什么程度呢？

它不能准确地模拟许多基本相互作用的物理过程，例如玻璃破碎。其他交互过程（例如吃食物）也不总是能正确预测。我们在登陆页面中列举了模型的其他常见故障模式，例如长时间样本中出现的不连贯性或对象的凭空出现。”

AD：GPT-4官方账号：点击购买

这家伙太懒了，什么也没留下。

请先登录后发表评论！

登录注册

最新回复 (1)

好哥哥9110 1月前

0 引用 2楼

该用户因违反社区规则被屏蔽，帖子内容被隐藏。