【Sora资源最全合集】
Sora,源自日语的そら,空。色即是空。色、受、想、行、识,五蕴亦皆空。至大无外,至小无内,这个产品注定会给人无穷的想象空间。
OpenAI 团队用一个充满禅意的词,又一次开启了AIGC 的新时代。
Sora伪装成了一个视频生成器,可以生成一分钟的高清、高一致性视频,大家首先会认为它是和Pika、Runway一样的实用工具,也会先考虑它对视频、电影行业的颠覆。这当然没错,但看到OpenAI的技术报告,Video generation models as world simulators(视频生成模型作为世界模拟器),用到了世界模拟器这个终极大词,很明显其意义又远不止视频这么简单。
一
Sora在算法上融合了diffusion和transformer两种架构,通过时空patches降维压缩输入的视频等多种视觉数据,代替语言模型中的tokens实现了在transformer中训练。
无论是Diffusion transformer (DiT)架构(Scalable Diffusion Models with Transformers),还是时空patch思想(Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution) ,在之前都有其他学者和机构提出过,谷歌也曾经做过不少贡献。OpenAI最大的贡献,跟之前的GPT3一样,是再次验证了Scaling Law可以在这个技术方向上继续发挥作用实现涌现。这是通过无数工程实验试错的结果,背后不仅是其强大的技术力量和信念支持,也是惊人的资本和算力支持的结果。
二
Sora表面上看起来是只在二维平面工作,但其实并非如此。之前的视频生成工具,的确大都只是部分元素在平面上简单运动甚至晃动,而Sora表现出了超强的“3D一致性”。“Sora可以生成具有动态相机运动的视频。随着相机的移动和旋转,人物和场景元素在三维空间中以一致的方式移动。”这就意味着,Sora已经具备对四维时空的完整理解和创造潜力。NeRF(神经辐射场)在之前已经基本具备了基于稀疏图像和视频完成三维建模的能力,二者结合之后,普通用户在XR中自由创造无限的空间场景再无瓶颈,也就可以真正实现“仰观宇宙之大,俯察品类之盛,所以游目骋怀,足以极视听之娱,信可乐也”的向元宇宙迁移的理想了。选在苹果发布Vision Pro之后不久的时点,也许也有这方面考虑。
三
“我们发现,当视频模型经过大规模数据训练后,它们涌现出了新的能力。这些能力使得Sora能够模拟一些来自物理世界的人、动物和环境的某些方面。这些能力的涌现是在没有经过3D、物理等明确数据标记的情况下出现的,它们纯粹是规模效应。”这一条可以说是Sora最为惊人的涌现要素。如果说前两点都还算是之前技术理解的自然延伸,只是比想象快了一点,这一点则清晰证明,DiT模型可以通过海量数据的学习,通过“直觉”方式理解整个物理世界,隐式表达各种物理规律。因此,大家难免会把这个世界模拟器与LeCun提出的世界模型相比较。这也是目前争议最大的一件事,毕竟Sora只是从视频中学习了物理世界的“表征”,可以建立符合人的感受的视频,但在细节上不可能真正“模拟”物理规律,更不能通过这种方式实现因果推断,进而实现具身智能,真正改造物理世界。所以LeCun显然感觉受到了冒犯,并坚持认为自己2022年提出的JEPA(联合嵌入预测架构)才是正途。JEPA并非生成式的,而是在表示空间中进行预测。
如果不是Sora,Meta在同一天发布的V-JEPA本来该受到大得多的关注。但话说回来,生成式模型似乎更接近人类理解世界的方式,只是是否能通过这个路径实现AGI,还是存疑的,毕竟Meta的视频demo离可用还相去甚远。但这次OpenAI的大杀器一出,恐怕短期内DiT必然成了构建AGI的主要路径。也许与交流电和直流电之争一样,并没有什么对错,最终也许是殊途同归,毕竟现在生成模型的主流方式也是缝合多个不同的网络。而且,在真正的世界模型解决物理世界的精确模拟和具身控制问题之前,Sora 也许已经足够解决虚拟世界的感官体验问题了。
结语
与其说Sora是个文生视频技术突破,不如说是OpenAI告诉大家一个通向AGI可行的技术路线,坚定大家对他的信任,并争取到更多的资源,包括资金、芯片和能源。联想到之前ChatGPT抢在Claude以前发布ChatBOT,这次对Google Gemini大杀器的精确阻击,显然也是有意为之。
这不仅仅是一个营销思路,更意味着已经比我们更早看到未来的奥特曼,已经意识到未来资源的稀缺,并需要靠精确的策略来保持OpenAI的技术领袖地位。奥特曼也在通过这种方式告诉所有大模型厂商,下一阶段不要在技术底座上继续与其竞争,争夺有限的资源。虽然有学者认为Sora只是一个大约30亿参数的模型,训练成本并没有想象的高,但视频数据本身的处理、标注等成本,加上长视频在推理阶段注定的巨大token数量和算力消耗,显然对任何公司都是难以承受的挑战。毕竟Sora技术报告中也对比了不同算力下的明显差异,还是离不开力大砖飞的路子。