Sora 的公测开放是 AIGC 领域的重要里程碑,标志着 AI 视频生成从"实验室演示"走向"生产可用"。
技术架构解析
Sora 基于扩散型 Transformer 架构(DiT),将视频分解为时空 patch(类似 ViT 的图像 patch 概念)进行处理,能够理解跨帧的物理一致性。
当前能力边界
- 最长生成 60 秒、1080P 分辨率的视频
- 支持文生视频、图生视频、视频续写等多种模式
- 对复杂物理交互(如液体流动、碰撞形变)的模拟仍有瑕疵
- 长视频中人物面部一致性偶有问题
行业影响
短视频广告、电影分镜预览、游戏场景原型等场景将率先受益。据估计,AI 辅助视频制作可将部分类型内容的生产成本降低 70% 以上。
结合 Serverless 的思考
视频生成是典型的计算密集型异步任务,非常适合 Serverless 架构——按需调用、按量计费、自动弹性,配合 MQ 做任务队列,可以构建极具弹性的视频生成平台。