• MoshiVis – Kyutai 开源的多模态实时语音模型
  • R1-Onevision – 开源多模态视觉推理模型,基于 Qwen2.5-VL 微调
  • AI绘画Stable Diffusion生成案例归隐山林
  • SeedVR – 南洋理工和字节跳动推出的扩散变换器模型,实现通用视频修复
  • Tarsier2 – 字节跳动推出的视觉理解大模型
  • SHMT – 阿里达摩院联合武汉理工等机构推出的自监督化妆转移技术
  • auto-video-generator – AI自动解说视频生成器
  • Kimi-Audio – Moonshot AI 开源的音频基础模型