1 0 0

5分钟带你了解Sora,为何李一舟能借此爆火

夏天
2月前 864

前言

Sora横空出世之后,李一舟上了热搜。一张中美“两大AI巨头”图片在网上热传,图中二人分别为OpenAI的首席执行官萨姆奥特曼和李一舟,这张图疑似“内涵”李一舟。有媒体引用一则数据称,“据飞瓜数据显示,李一舟售卖的AI课《每个人的人工智能课》一年内卖出约25万套,销售额约5000万。”近几天,关于李一舟的争议可谓一波接一波。

5分钟带你了解Sora,为何李一舟能借此爆火

有人说:“中国任何一家估值几十亿上百亿的大模型公司,2023年的营收水平大概率比不过这位抖音卖课的李博士,有点魔幻。”

普通人学习AI、使用AI的门槛真的那么高吗?不见得。原因种,种AI的热潮让大众盲目,落后就要挨打的观念也是原因之一,并且,从哪里获取AI、如何学习AI就像寻宝一样困难。

初识Sora

继ChatGpt3.5到4.0PlusOpenAI 在2024年2月16日正式宣布推出文本生成视频的大模型 Sora:

官网:openai.com/sora

5分钟带你了解Sora,为何李一舟能借此爆火

OpenAI的官网介绍称,使用这款模型可以用文本生成长达一分钟的视频,视频可具有多个角色、特定类型的运动、精确主题和背景细节等复杂场景。

sora原理

Sora要解决的任务其实非常好理解,就是给定一段文本,模型需要根据该文本生成相应的视频,简单说就是text-to-video(t2v)。t2v本身并不是一个新问题,很多厂商都在研究t2v模型,只是当前的t2v模型生成的视频普遍质量较差,很难到达工业应用级别。在Sora出现前大家的普遍认知是:t2v是一个很难的任务,工业级别t2v模型(或者说能真正实用的t2v模型)短时间内应该很难实现。然而,OpenAI又又又一次打了所有人的脸,Sora的发布意味着,这一天已经来了。

基于Transformer架构

简单描述Sora训练建模过程,就是:将原始视频通过一个视觉编码器(visual encoder)编码到隐空间(latent space)形成隐时空块(spacetime latent patches),这些隐时空块(结合text信息)通过transformer做diffusion [2, 3, 4]的训练和生成,将生成的隐时空块再通过视觉解码器(visual decoder)解码到像素空间(pixel space)。所以整个过程就是:visual encoding -> latent diffusion with diffusion transformer (DiT) [4] -> visual decoding。

扩散模型和训练稳定性

Sora模型采用了扩散模型的方法,与传统的GAN模型相比,具有更好的生成多样性和训练稳定性。扩散模型通过逐步消除噪声来生成视频,这样可以有效地提高生成的视频质量。同时,通过采用扩散模型,Sora还能够生成更加逼真的视频场景。

Sora可以灵活地采用不同时长、分辨率和长宽比的视频

OpenAI发现之前的方法大多采用固定尺寸的视频(比如4s的256x256视频)去训练模型,和现实中任意长度、长宽比有较大gap,而采用原始尺寸的视频训练模型效果更好。得益于Sora采用的transformer结构,Sora可以输入任意多个visual patches(初始为noise patches),即可生成任意尺寸的视频。

生成视频的数据处理和压缩

生成视频需要处理大量的数据,对于这一问题,Sora模型采用了数据处理和压缩的技术。通过对视频数据进行处理和压缩,Sora能够在保持视频质量的同时,减少存储空间的占用。

视频质量和逼真度

Sora模型在生成视频的过程中,注重保持视频质量和逼真度。通过采用Transformer架构和扩散模型的方法,Sora能够生成更加连贯、且具有很高逼真度的视频场景。这使得Sora在应用领域具有广泛的潜力,比如可以用于影视制作、游戏开发等方面。

参考链接:www.openai.com/research/so…

sora作品展示

案例:

1.Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

翻译:一位时尚的女性走在东京街头,周围是温暖闪亮的霓虹灯和活力四射的城市标识。她穿着一件黑色皮夹克,一条长长的红色连衣裙,搭配黑色靴子,并背着一个黑色手提包。她戴着墨镜,涂着红色口红。她步履自信,悠然自得地走着。街道潮湿而反光,呈现出丰富多彩的灯光的镜面效果。许多行人在街上走动。

5分钟带你了解Sora,为何李一舟能借此爆火

Sora应用前景

  • 视频创作:用户可以根据文本生成高质量视频;
  • 扩展视频:可以在给定的视频或图片基础上,继续向前或向后延申视频;
  • Video-to-video editing:例如将SDEdit [7]应用于Sora,可以很容易改变原视频的风格;
  • 视频连结/过渡/转场:可以将两个视频巧妙地融合到一起,使用Sora在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡;
  • 文生图:图像可以视为单帧的视频,故Sora也能实现文生图。

可以预见的是,当sora正式开放之后,短视频平台将会涌现非常多的sora生成的视频,又会有许多普通人收获一桶金。

Sora带来的行业巨震

  • 短视频内容创作可能进入新的时代:Sora可以提供丰富的视频素材;
  • 视频剪辑和编辑:Sora具备相关应用能力;
  • 更逼真的数字人:用户可以得到自己的“理想型”;
  • 娱乐化:从图像一键生成视频;
  • 游戏行业:游戏引擎受到Sora挑战;
  • 图形学:未来可能不复存在。

sora使用教程

使用Sora前的准备工作

在开始之前,确保您已经拥有了OpenAI账目,并获得了Sora的访问权限。准备好您想要转化成视频的文本描述,记住越详细越好。

Sora使用步骤一:文本描述

1.描述视频内容:首先,您需要对想要在视频中展示的内容进行清晰的描述。这包括场景、人物、动作以及整体基调。提供的细节越详细,Sora就能更好地理解您的愿景。

2.完成文本描述和自定义设置:在完成文本描述后,您可以点击“生成视频”按钮。Sora将开始处理您的请求,这个过程可能需要几分钟时间。

Sora使用步骤二:生成视频

预览以及编辑视频:视频生成后,您可以对其进行预览。如果需要,您还可以灵活地编辑和更改生成的场景,以确保最终视频符合您的期望。

Sora 常见问题

目前的视频生成模型普遍生成的motion都不太好,最简单的例子就是“人走路”,大部分模型无法生成连贯的、长时间的、合理的人行走的过程。而Sora生成的结果在连贯性、合理性上相比之前的模型都有着断代的领先。那到底是什么促使了这样的结果呢?是模型尺寸的scale up吗?需要scale up到什么size?还是数据的收集和清洗呢?以及要做到什么程度呢?

它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。其他交互过程(例如吃食物)也不总是能正确预测。我们在登陆页面中列举了模型的其他常见故障模式,例如长时间样本中出现的不连贯性或对象的凭空出现。”

AD:GPT-4官方账号:点击购买

请先登录后发表评论!

最新回复 (1)
  • 好哥哥9110 1月前
    0 引用 2
返回
请先登录后发表评论!