全部标签

字节

SeedVR – 南洋理工和字节跳动推出的扩散变换器模型，实现通用视频修复

SeedVR项目简介 SeedVR是南洋理工大学和字节跳动推出的扩散变换器模型，能实现高质量的通用视频修复。SeedVR基于引入移位窗口注意力机制，采用大尺寸（64×64）窗口和边界处的可变大小窗口，有效处理任意长度和分辨率的视频，克服传统方法在不同分辨率下的性能限制。SeedVR结合因果视频变分自编码器（CVVAE），基于时间和空间压缩降低计算成本，同时保持高重建质量。基于大规模图像和视频联合训…
工具测评
- 0
- 0
AI逻界18小时前
Tarsier2 – 字节跳动推出的视觉理解大模型

Tarsier2项目简介 Tarsier2是字节跳动推出的先进的大规模视觉语言模型（LVLM），生成详细且准确的视频描述，在多种视频理解任务中表现出色。模型通过三个关键升级实现性能提升，将预训练数据从1100万扩展到4000万视频文本对，丰富了数据量和多样性；在监督微调阶段执行精细的时间对齐；基于模型采样自动构建偏好数据，应用直接偏好优化（DPO）训练。在DREAM-1K基准测试中，Tarsie…
工具测评
- 0
- 0
AI逻界18小时前