虎牙 裸舞 微软开源视频Tokenizer新SOTA!显耀优于Cosmos Tokenizer和Open-Sora
Sora、Genie 等模子会都用到的 Tokenizer虎牙 裸舞,微软下手了——
开源了一套万能的 Video Tokenizer,名为VidTok。
Sora 等视频生成模子职责中,都会欺骗 Tokenizer 将原始的高维视频数据(如图像和视频帧)退换为更为紧凑的视觉 Token,再以视觉 Token 为主见检修生成模子。
而最新的 VidTok,在贯穿和龙套、不同压缩率等多种设定下,各神色标均显耀优于 SOTA 模子。
以下是涵盖 PSNR、SSIM、FVD、LPIPS 主见的性能比较雷达图,面积越大暗示性能越好。
从图中不错看出关于龙套 Tokenizer,VidTok 显耀优于英伟达 Cosmos Tokenizer;关于贯穿 Tokenizer,VidTok 也比 Open-Sora、CogVideoX 有更高的性能。
这项商讨由来自微软亚研院、上海交通大学、北京大学的商讨东谈主员共同完成。
当今,VidTok 代码不仅开源了,还援救用户在自界说数据集上的微调,为商讨者和缔造者提供了一个高性能、易用的器具平台。
性能全面跨越,适用各式场景
比年来,视频生成以及基于此的宇宙模子依然成为东谈主工智能限制的热点商讨标的,这两者的中枢在于对视频实践的高效建模。
视频中蕴含了丰富的视觉信息,不仅大约提供实在的视觉体验,更能算作具身场景中模子贯通宇宙的中间引子。
然则,由于视频像素级暗示信息高度冗余,怎么通过 Tokenizer 对视频数据进行高效压缩和暗示成为要津课题。
当下许多职责如 Sora,Genie 等都和会过 Tokenizer 将原始的高维视频数据(如图像和视频帧)退换为更为紧凑的视觉 Token,再以视觉 Token 为主见检修生成模子。
不错说,视觉 Token 的暗示才略关于最终的效力至关热切,以致决定了模子才略的上限。
Tokenizer 的主要作用是将高维的原始数据退换为隐空间中高效的压缩暗示,使得信息的生成和科罚不错在该隐空间中进行。上图展示了一个视频的 Token 化经过,通过退换为 Token 建模,大约灵验镌汰模子检修和推理时的计较需求。
字据不同的使用需求,视频 Tokenizer 常常有如下分类:
贯穿型和龙套型。字据隐空间的数值溜达,Tokenizer 不错分为贯穿型和龙套型,分辨适用于从贯穿溜达中采样的模子(如扩散模子等)和从龙套溜达中采样的模子(如谈话模子等)。
因果型和非因果型。因果结构使得模子只依赖历史帧来对刻下帧进行 Tokenization,这与实在宇宙系统的因果性质保握一致。非因果模子则不错同期字据历史帧和往日帧对刻下帧进行 Tokenization,常常具有更优的重建质料。
不同的压缩率模子。Sora 等盛大职责袭取了如 4x8x8 的视频压缩率(时候压缩 4 倍、空间压缩 8 倍),完了更高的视频压缩率而保握高质料的视频重建是当今的商讨趋势。
当今业界跨越的视频模子多为闭源现象,而开源的视频 Tokenizer 大多受限于单一的模子设定或欠佳的重建质料,导致可用性较差。
由此,来自微软亚研院、上海交通大学和北京大学的商讨东谈主员最近追究发布了开源视频 Tokenizer —— VidTok。
在测试中,VidTok 性能全面跨越,适用各式场景。
如下表所示,VidTok援救千般化的隐空间且具有纯简直压缩率,同期援救因果和非因果模子,以妥当不同的使用需求。
关于贯穿型 Tokenizer,援救不同的视频压缩率、不同的隐空间通谈数,同期援救因果和非因果模子。
关于龙套型 Tokenizer,援救不同的视频压缩率、不同的码本大小,同期援救因果和非因果模子。
更多模子在握续更新中。
为了全面评估 VidTok 在各个设定下的重建性能,作家将 VidTok 与来源进的贯穿和龙套视频 Tokenizer 分辨进行了对皆设定下的比较。通盘模子均为 4x8x8 倍视频压缩率的因果模子,主要包含以下三种设定:
VidTok-FSQ:龙套型,码本大小各别。基线举止包括 MAGVIT-v2,OmniTokenizer,Cosmos-DV 等。
VidTok-KL-4chn:贯穿型,隐空间通谈数为 4。基线举止包括 CV-VAE,Open-Sora-v1.2,Open-Sora-Plan-v1.2 等。
VidTok-KL-16chn:贯穿型,隐空间通谈数为 16。基线举止包括 CogVideoX,Cosmos-CV 等。
定量实验规章标明,VidTok 在上述三种设定下均达到了 SOTA 性能,在常见的视频质料评估主见 PSNR、SSIM、FVD、LPIPS 上具有全面的上风。
与现存的龙套 Tokenizer 比较,VidTok 即使在使用更小的码本大小时(举例 32,768),也展现出了更优的重建性能。
韩国情色电影在贯穿 Tokenizer 的设定下,岂论隐空间通谈数是 4 照旧 16,VidTok 在通盘评估主见上比较基线举止均取得了全面的耕种。值得谨慎的是,这些耕种是在莫得模子大小上风的情况下达成的。
除此除外,团队还进行了定性分析。
上图中展示了以上三种设定下的与基线举止的对比规章。
从视频帧的重建质料不错看出,与现存的举止比较,VidTok 在各式模子设定下,均展现出了最优的重建细节保真度和主不雅视觉质料。发挥了 VidTok 算作多功能视频 Tokenizer 的灵验性。
是以 VidTok 是怎么作念到的?
VidTok 的期间亮点领悟
相干于现存的视频 Tokenizer,VidTok 在模子架构、量化期间、检修政策上分辨作念了改变。
高效的羼杂模子架构盘算
VidTok 袭取经典的 3D 编码器 - 解码器结构,同期改变性地洽商了 3D、2D 和 1D 卷积,灵验地解耦空间和时候采样。
在现存商讨中普遍合计,尽管计较资本较高,所有的 3D 架构提供了更优的重建质料。然则,VidTok 发现将部分 3D 卷积替换为 2D 和 1D 卷积的组合,不错灵验地解耦空间和时候采样,在镌汰计较需求的同期,保握了高水平的重建质料。
详备的收罗架构如上图所示。VidTok 分辨科罚空间采样和时候采样模块,并在时候采样模块中引入了 AlphaBlender 操作符。其余组件,包括输入 / 输出层和瓶颈层,则欺骗 3D 卷积来促进信息交融。此外,通盘这个词架构中引入了层归一化以增强踏实性和性能。实考发挥该架构在重建质料和计较量之间取得了均衡。
先进的量化期间
VidTok 引入了有限标量量化(FSQ)期间,无需显式学习码本,显耀提高了模子的检修踏实性和重建性能。
有限标量量化(FSQ)由「Finite scalar quantization: Vq-vae made simple」提议,其中枢旨趣是,在隐空间表征中,每个标量条件通过四舍五入沉寂量化到最近的预界说标量值。
与传统 VQ 比较,FSQ 无需学习显式的码本,从而提高了检修的踏实性。实验标明,FSQ 在码本欺骗率、重建质料和检修踏实性方面具有显耀上风,算作一种先进的量化期间,灵验耕种了龙套 Tokenizer 的性能。
增强的检修政策
VidTok 袭取分阶段检修政策,检修时候减少了 50%,而重建质料不受影响。
视频 Tokenizer 的检修常常是计较密集的,要求普遍计较资源(举例关于 256x256 分辨率的视频需要 3,072GPU 小时的检修时长)。这就需要缔造灵验的政策来镌汰计较资本,同期保握模子性能。
VidTok 袭取一种两阶段检修举止来应答这一挑战:最初在低分辨率视频上对完好模子进行预检修,然后仅在高分辨率视频上微长入码器。这种检修政策显耀镌汰了计较资本——检修时候减少了一半(从 3,072GPU 小时降至 1,536GPU 小时),而保握重建视频质料不变。
该两阶段检修的另一上风是,由于第二阶段只会微长入码器,因此模子不错快速妥当到新的限制数据中,而不会影响隐空间数据溜达。
此外,由于视频 Tokenizer 旨在建模输入视频的畅通动态,因此在模子中灵验暗示这些动态至关热切。VidTok 使用较低帧率的数据进行检修,显耀增强了模子捕捉和暗示畅通动态的才略,取得了更好的重建质料。
VidTok 的开源为视频生成、宇宙模子限制提供了新的器具,很是是在刻下业内许多跨越模子仍未开源的布景下。
团队暗示,VidTok 援救后续微调也为其他应用提供了更纷乱的使用空间,商讨者可圣洁将 VidTok 应用于特定限制数据集,为主见场景优化性能。
更多细节实践感有趣有趣的童鞋可参阅原论文。
论文地址:https://arxiv.org/abs/2412.13061
神色地址:https://github.com/microsoft/vidtok
— 完 —
点这里� � 照拂我,紧记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿发扬日日相遇 ~