-
VSI-Bench – 李飞飞谢赛宁团队推出的视觉空间智能基准测试集
VSI-Bench项目简介 VSI-Bench(Visual-Spatial Intelligence Benchmark)是李飞飞、谢赛宁及他们的研究团队推出的视觉空间智能基准测试集,研究者构建用在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。VSI-Bench包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及住宅、办公室和工厂等多种环境。VSI-Bench任…- 2
-
Teacher2Task – 谷歌推出的多教师学习框架
Teacher2Task什么 Teacher2Task是谷歌团队推出的多教师学习框架,引入教师特定的输入标记和重新构思训练过程,消除对手动聚合启发式方法的需求。框架不依赖聚合标签,将训练数据转化为N+1个任务,包括N个辅助任务预测每位教师的标记风格,及一个主要任务关注真实标签。这种方法提高标签效率,减少对手动启发式方法的依赖,减轻潜在标签不准确性的影响,让模型从多个教师的多样化预测中学习,提高性能…- 0
-
LLaMA-Mesh – 清华联合英伟达推出的自然语言生成复杂的3D模型项目
LLaMA-Mesh项目简介 LLaMA-Mesh是清华大学和NVIDIA共同推出的项目,基于将3D网格生成与大型语言模型(LLMs)结合,实现用文本提示直接生成3D模型的功能。项目用OBJ文件格式将3D网格的顶点坐标和面定义转换为文本,基于顶点量化技术优化处理,让模型能理解和生成3D网格。LLaMA-Mesh能生成高质量的3D网格,保持强大的语言理解和生成能力,为3D内容创作提供一种更直观、高效…- 2
-
Animate-X – 阿里巴巴开源的通用动画生成框架
Animate-X项目简介 Animate-X是基于LDM的通用动画框架,能将静态图像转化为动态视频,擅长处理拟人化角色。 通过引入姿势指示器,增强了对运动模式的捕捉能力,包括隐式和显式运动特征。 Animate-X适用于人类角色,能处理卡通人物或游戏角色等非人类角色动画,无需严格的图像对齐。 技术主要应用广泛,包括游戏开发、电影和视频制作、虚拟现实以及社交媒体内容创作。 Animate-X优势介…- 3
-
Laminar – 分析与优化LLM应用程序的开源平台
Laminar项目简介 Laminar是一个开源的可观测性和分析平台,专为大型语言模型(LLM)应用程序设计。Laminar提供一套完整的工具追踪、评估、注释和分析LLM数据,使开发者深入理解并优化应用程序。Laminar的核心功能包括自动追踪LLM调用和数据库交互,事件驱动的分析,直观的仪表板展示。Laminar支持数据标注和重用,支持用户构建数据集改进模型。Laminar基于现代技术栈构建,包…- 0
-
SadTalker – 开源AI数字人项目,一键让照片说话
SadTalker项目简介 SadTalker是西安交通大学、腾讯AI实验室和蚂蚁集团联合推出的开源AI数字人项目。SadTalker专注于通过单张人脸图像和语音音频,利用3D运动系数生成逼真的说话人脸动画。通过ExpNet精确学习面部表情,以及PoseVAE合成不同风格的头部运动,SadTalker能够创造出高质量、风格化的视频动画。SadTalker还包括了丰富的视频演示和消融研究,展示了其在…- 1
-
HouseCrafter – 东北大学和 Stability AI推出2D转换3D室内场景的技术
HouseCrafter项目简介 HouseCrafter 是由东北大学和 Stability AI 推出的先进技术,将二维平面图自动转换成三维室内场景。基于一个网络规模图像训练的2D扩散模型,生成一致的多视图彩色(RGB)和深度(D)图像。图像自回归地批量生成,确保全局一致性,重建出高质量的3D场景。简化复杂虚拟环境的创建过程,基于用户交互功能,支持用户在平面图上移动家具轻松编辑场景布局,实时更…- 1
-
HiCo – 360 AI研究院推出的布局可控AI绘画模型
HiCo项目简介 HiCo是360 AI研究院推出的基于扩散模型的层次化可控布局到图像生成模型,HiCo基于多分支结构设计,实现对对象位置和文本描述的精确控制。HiCo的关键特点在于进行空间解耦,有效地处理复杂布局,减少对象缺失和视角冲突等问题。HiCo在自然场景的多目标可控布局生成中表现出色,引入HiCo-7K基准测试集。HiCo模型展示了与快速生成插件(如LoRA、LCM)的兼容性,能生成高分…- 2