2月16日凌晨,OpenAI在官网发布了创新性文生视频模型——Sora。
从OpenAI在官网展示的Sora生成视频的效果来看,在生成视频质量、分辨率、文本语义还原、视频动作一致性、可控性、细节、色彩等方面非常好!
特别是可以生成最长1分钟的视频!超过Gen-2、SVD-XT、Pika等主流产品,一出手就是王炸。
2023年9月21日,OpenAI发布了文生图模型DALL·E3,加上现在的Sora以及之前的语音模型Whisper,ChatGPT已经具备了文本、图像、视频、音频4大多模态功能,AGI离我们还远吗?
Sora生成的1分钟视频:提示词,一位时尚女性走在街道上,街道上到处是温暖的霓虹灯和动画城市标志。她身穿黑色皮夹克、红色长裙和黑色靴子,手拿黑色钱包;
她戴着太阳镜,涂着红色唇膏。她走起路来自信而随意。街道潮湿而反光,与五颜六色的灯光形成镜面效果。许多行人走来走去。
Sora简单介绍
目前,文生视频领域因为帧间依赖处理、训练数据、算力资源、过拟合等原因,一直无法生成高质量的长视频。
而Sora最大技术突破是,可以在保持质量的前提下,生成1分钟的视频,在业内非常罕见。这也再次展示了OpenAI在大模型领域超强的技术研发能力。
Sora是一种扩散模型,主要通过静态噪音的视频开始生成视频,然后再通过多个步骤去除噪音,逐渐转换视频。
Sora与ChatGPT一样采用的是Transformer架构,并使用了DALL-E 3中的重述技术,是一种为视觉训练数据生成高精准描述性的字幕。所以,Sora在生成视频过程中精准还原用户的文本提示语义。
功能方面,除了文本生成视频之外,Sora还能根据图像生成视频,并能准确地对图像内容进行动画处理。也能提取视频中的元素,对其进行扩展或填充缺失的帧,功能非常全面。
稍晚一些OpenAI会发布Sora论文,「AIGC开放社区」为大家带来更深度的技术解读。
Sora生成案例展示
以下视频全部由Sora生成,再次感叹一下,效果、时长等方面真的太强了!
逼真的特写视频,两艘海盗船在一杯咖啡内航行时互相争斗。
一只维多利亚冠鸽的特写镜头,展示了它醒目的蓝色羽毛和红色胸部。它的冠羽由精致的花边羽毛组成,眼睛则是醒目的红色。
鸽子的头部略微偏向一侧,给人一种高贵威严的感觉。背景是模糊的,让人注意到这只鸟引人注目的外表。
3D视频,一只圆滚滚、毛茸茸的小动物,睁着一双富有神采的大眼睛,在生机勃勃的魔法森林中探险。它是兔子和松鼠的奇异混合体,有着柔软的蓝色皮毛和长满条纹的尾巴。它沿着波光粼粼的小溪蹦蹦跳跳,眼睛睁得大大的,充满了好奇。
森林里充满了神奇的元素:会发光和变色的花朵、长着紫色和银色树叶的树木,还有像萤火虫一样的小浮光。这只生物停下来,与一群围着蘑菇环跳舞的小精灵嬉戏。该生物仰望着一棵发光的大树,敬畏之情油然而生。
无人机拍摄大苏尔加雷点海滩上海浪拍打崎岖悬崖的景象。湛蓝的海水拍打出白色的浪花,夕阳的金光照亮了岩石海岸。远处有一座小岛,岛上有一座灯塔,绿色的灌木丛覆盖着悬崖边缘。
从公路到海滩的陡峭落差非常壮观,悬崖的边缘突出海面。这里的景色捕捉到了海岸的原始之美和太平洋海岸公路的崎岖地貌。
镜头跟在一辆白色复古越野车后面,车顶有黑色行李架,越野车在陡峭的山坡上沿着松树环绕的陡峭土路快速行驶,轮胎上的尘土飞扬,阳光照在越野车上,越野车在土路上快速行驶,给整个场景投下了温暖的光辉。
土路缓缓弯向远方,看不到其他车辆。道路两旁的树木都是红杉,还有零星的绿色植物。从后方看,汽车轻松地沿着弯道行驶,仿佛在崎岖的地形上行驶。土路本身被陡峭的丘陵和山脉环绕,头顶是晴朗的蓝天和飘渺的白云。
24 岁女子眨眼的超特写,正值 "魔幻时刻",电影胶片,70 毫米拍摄,景深,色彩鲜明,电影效果。
镜头围绕着一大堆老式电视机旋转,这些电视机播放着不同的节目--上世纪 50 年代的科幻电影、恐怖电影、新闻、静态节目、上世纪 70 年代的情景喜剧等,背景是一家大型博物馆的展厅。