当前位置：首页 > news >正文

要做网站到哪里做网络怎么做推广

news 2025/7/20 18:51:51

要做网站到哪里做,网络怎么做推广,产品外观设计案例,南昌网站建设培训学校文章目录 1. 写在前面2. 什么是Sora？3. Sora的技术原理【作者主页】：吴秋霖【作者介绍】：Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作！ 【作者推荐】：对JS逆向感…

文章目录

1. 写在前面
2. 什么是Sora？
3. Sora的技术原理

【作者主页】：吴秋霖
【作者介绍】：Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作！
【作者推荐】：对JS逆向感兴趣的朋友可以关注《爬虫JS逆向实战》，对分布式爬虫平台感兴趣的朋友可以关注《分布式爬虫平台搭建与开发实战》
还有未来会持续更新的验证码突防、APP逆向、Python领域等一系列文章

1. 写在前面

就在2024年的春节期间，OpenAI发布了Sora，这一次的发布得到了全世界的关注。Sora简单的理解就是通过文字或者语言直接生成的视频大模型（text-to-video文生视频模型），官方并没有单纯的称之为视频模型，而是称为“世界模拟器”

在这里插入图片描述

一起围观震撼的视觉冲击：openai-sora

2. 什么是Sora？

Sora是OpenAI发布的一个视频生成模型，可基于文本输入生成视频！产生长达一分钟的连贯视频，而且可以做到高清与多视角，是不是感觉人人都可以做导演了～

Sora跟之前的Pika和Runway并不属于同一个东西！Sora是有理解力的，可以感知真实的物理世界与自然语言！Pika和Runway目前只能生成4s视频，但是Sora可生成60s超长视频的同时且动作连续、有一定的艺术性、没有看似生硬的感觉

在这其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色～

同样的提示词在下图中，无论是视频的画质、内容细节以及视频的长度。Sora都表现的非常优秀！

在这里插入图片描述

我们再看下面的一组示列，也是同样的提示词，上面是由Sora生成，而下面则是RunwayG2生成，很明显的可以看到无论是视频的清晰度，还是视频的流畅度，以及视频里面海浪🌊的细节，Sora都全面的碾压Runway

在这里插入图片描述

Sora不仅生成60s超长视频，在视频内可以在保持主角色不变的高度一致性的同时，还生成多个不同角度的分镜！下面的这个视频使用一致的形象，还进行分镜处理

提示词：博朋克背景下机器人的生活故事

Sora有时能够模拟对世界状态产生简单影响的行为。例如，画家可以在画布上持续添加新的笔触，或者一个人吃汉堡时留下咬痕。这个就厉害了，基于虚幻引擎5(Unreal-Engine-5)的Sora它是能理解物理世界的

3. Sora的技术原理

OpenAI在其技术报告中虽未提及模型的训练与细节，但也重点展示了：

将所有类型的视觉数据转化为统一表示，从而能够大规模训练生成模型的方法
Sora的能力以及局限性定性评估

视觉数据转为 Patches

大型语言模型通过在互联网规模的数据上进行训练，获得了出色的通用能力中，OpenAI 从这一点汲取了灵感。LLM 得以确立新范式，部分得益于创新了 token 使用的方法。研究人员们巧妙地将文本的多种模态 —— 代码、数学和各种自然语言统一了起来。
在这项工作中，OpenAI 考虑了生成视觉数据的模型如何继承这种方法的好处。大型语言模型有文本 token，而 Sora 有视觉 patches。此前的研究已经证明 patches 是视觉数据模型的有效表示。OpenAI 发现 patches 是训练生成各种类型视频和图像的模型的可扩展且有效的表示

在这里插入图片描述

在更高层面上，OpenAI首先将视频压缩到较低维的潜在空间，然后将表示分解为时空patches，从而将视频转换为patches

视频压缩网络
OpenAI训练了一个降低视觉数据维度的网络。该网络将原始视频作为输入，并输出在时间和空间上压缩的潜在表示。Sora 在这个压缩的潜在空间中接受训练，而后生成视频。OpenAI还训练了相应的解码器模型，将生成的潜在表示映射回像素空间

时空潜在 Patches

给定一个压缩的输入视频，OpenAI 提取一系列时空 patches，充当 Transformer 的 tokens。该方案也适用于图像，因为图像可视为单帧视频。OpenAI 基于 patches 的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时，OpenAI 可以通过在适当大小的网格中排列随机初始化的 patches 来控制生成视频的大小

用于视频生成的缩放 Transformer

Sora的训练受到了大语言模型（Large Language Model）的启发。这些模型通过在互联网规模的数据上进行训练，从而获得了广泛的能力

在这里插入图片描述