-
SeedVR – 南洋理工和字节跳动推出的扩散变换器模型,实现通用视频修复
SeedVR项目简介 SeedVR是南洋理工大学和字节跳动推出的扩散变换器模型,能实现高质量的通用视频修复。SeedVR基于引入移位窗口注意力机制,采用大尺寸(64×64)窗口和边界处的可变大小窗口,有效处理任意长度和分辨率的视频,克服传统方法在不同分辨率下的性能限制。SeedVR结合因果视频变分自编码器(CVVAE),基于时间和空间压缩降低计算成本,同时保持高重建质量。基于大规模图像和视频联合训…- 0
- 0
-
Tarsier2 – 字节跳动推出的视觉理解大模型
Tarsier2项目简介 Tarsier2是字节跳动推出的先进的大规模视觉语言模型(LVLM),生成详细且准确的视频描述,在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升,将预训练数据从1100万扩展到4000万视频文本对,丰富了数据量和多样性;在监督微调阶段执行精细的时间对齐;基于模型采样自动构建偏好数据,应用直接偏好优化(DPO)训练。 在DREAM-1K基准测试中,Tarsie…- 0
- 0