-
HMA – MIT联合Meta等推出的机器人动作视频动态建模方法
HMA项目简介 HMA(Heterogeneous Masked Autoregression)是麻省理工学院、Meta和伊利诺伊大学香槟分校开源的,用在建模机器人动作视频动态的方法。HMA基于异构预训练,用不同机器人实体、领域和任务中的观测和动作序列,结合掩码自回归技术生成视频预测。HMA支持离散和连续两种变体,分别用在快速生成和高保真度生成,处理动作空间的异构性,包括不同的动作频率、维度和动作…- 1
-
Voice Engine – OpenAI公布的AI语音合成和声音克隆模型
Voice Engine项目简介 Voice Engine是OpenAI最新公布的一项AI语音合成和声音克隆技术,能够利用简短的15秒音频样本和文本输入,生成接近原声的自然听起来的语音。该项技术自2022年底开发以来,已经被应用于OpenAI的文本到语音API和ChatGPT的语音功能中。Voice Engine的应用前景广泛,包括为儿童和非读者提供阅读辅助、翻译内容以触及全球听众、支持非言语交流…- 3
-
Veo – 谷歌推出的可生成1分钟1080P的视频模型
Veo项目简介 Veo是由Google DeepMind开发的一款视频生成模型,用户可以通过文本、图像或视频提示来指导其生成所需的视频内容,能够生成时长超过一分钟1080P分辨率的高质量视频。Veo拥有对自然语言的深入理解,能够准确捕捉和执行各种电影制作术语和效果,如延时摄影或航拍镜头。Veo生成的视频不仅在视觉上更加连贯一致,而且在人物、动物和物体的动作表现上也更加逼真。Veo的开发旨在使视频制…- 1
-
CodeDPO – 北京大学联合字节共同推出的代码生成优化框架
CodeDPO项目简介 CodeDPO是北京大学与字节跳动合作推出的代码生成优化框架,能提升代码模型在正确性和效率方面的表现。框架基于自生成和验证机制,同时构建和评估代码及其测试用例,用PageRank算法迭代更新代码片段的排名,最终形成基于正确性和效率优化的数据集。CodeDPO不依赖外部资源,能够灵活、可扩展地生成多样化的偏好优化数据,为复杂现实场景中的代码模型优化提供了坚实基础。 CodeD…- 1
-
Apollo – Meta 联合斯坦福大学推出的大型多模态模型
Apollo项目简介 Apollo是Meta和斯坦福大学合作推出的大型多模态模型(LMMs),专注于视频理解。Apollo基于系统研究,揭示视频理解在LMMs中的关键驱动因素,推出“Scaling Consistency”现象,即在较小模型上的设计决策能有效扩展至大型模型。Apollo项目引入ApolloBench,一个高效的视频理解评估基准,及一系列先进的Apollo模型,这些模型在不同规模上均…- 2
-
华知大模型5.0 – 知网联合华为云推出的多模态AI大模型
华知大模型5.0项目简介 华知大模型5.0是同方知网与华为云联合推出的AI大模型,具备多模态理解和生成能力。华知大模型5.0的最大亮点在于多维模型的构建能力,涵盖从7B到135B不等的多种规模模型。通过跨模态多层语义融合技术,处理学术图片、统计表格等数据,实现复杂场景下的智能识别和分割。模型采用多级思维链增强技术,提升内容生成的逻辑性和可信度,有效抑制大模型幻觉问题。 华知大模型5.0优势介绍 A…- 2
-
GTA – 上海AI Lab联合交大推出评估通用工具智能体的基准测试
GTA项目简介 GTA(a benchmark for General Tool Agents)是上海交通大学和上海AI实验室共同推出的基准测试,评估大型语言模型(LLMs)在真实世界场景中调用工具的能力。GTA基于提供真实的用户问题、真实部署的工具和多模态输入输出,建立一个全面、细粒度的评估框架,有效衡量LLMs在复杂场景下的工具使用能力。GTA包含229个人类设计的问题,覆盖感知、操作、逻辑和…- 1
-
Neural4D 2o – DreamTech 推出支持多模态交互的 3D 模型
Neural4D 2o项目简介 Neural4D 2o 是 DreamTech 推出的全球首个支持多模态交互的 3D 大模型。模型基于文本、图像、3D 和运动数据的联合训练,实现 3D 生成的上下文一致性、高精准局部编辑、角色 ID 保持、换装和风格迁移等功能。模型支持用户基于自然语言指令实现高质量的 3D 内容创作。Neural4D 2o 原生支持 MCP 协议,上线了基于 MCP 的 Neur…- 1