全部标签

工具测评

最新随机最多浏览最多喜欢

HMA – MIT联合Meta等推出的机器人动作视频动态建模方法

HMA项目简介 HMA（Heterogeneous Masked Autoregression）是麻省理工学院、Meta和伊利诺伊大学香槟分校开源的，用在建模机器人动作视频动态的方法。HMA基于异构预训练，用不同机器人实体、领域和任务中的观测和动作序列，结合掩码自回归技术生成视频预测。HMA支持离散和连续两种变体，分别用在快速生成和高保真度生成，处理动作空间的异构性，包括不同的动作频率、维度和动作…
工具测评
- 1
7月7日
Voice Engine – OpenAI公布的AI语音合成和声音克隆模型

Voice Engine项目简介 Voice Engine是OpenAI最新公布的一项AI语音合成和声音克隆技术，能够利用简短的15秒音频样本和文本输入，生成接近原声的自然听起来的语音。该项技术自2022年底开发以来，已经被应用于OpenAI的文本到语音API和ChatGPT的语音功能中。Voice Engine的应用前景广泛，包括为儿童和非读者提供阅读辅助、翻译内容以触及全球听众、支持非言语交流…
工具测评
- 3
7月6日
Veo – 谷歌推出的可生成1分钟1080P的视频模型

Veo项目简介 Veo是由Google DeepMind开发的一款视频生成模型，用户可以通过文本、图像或视频提示来指导其生成所需的视频内容，能够生成时长超过一分钟1080P分辨率的高质量视频。Veo拥有对自然语言的深入理解，能够准确捕捉和执行各种电影制作术语和效果，如延时摄影或航拍镜头。Veo生成的视频不仅在视觉上更加连贯一致，而且在人物、动物和物体的动作表现上也更加逼真。Veo的开发旨在使视频制…
工具测评
- 1
7月6日
CodeDPO – 北京大学联合字节共同推出的代码生成优化框架

CodeDPO项目简介 CodeDPO是北京大学与字节跳动合作推出的代码生成优化框架，能提升代码模型在正确性和效率方面的表现。框架基于自生成和验证机制，同时构建和评估代码及其测试用例，用PageRank算法迭代更新代码片段的排名，最终形成基于正确性和效率优化的数据集。CodeDPO不依赖外部资源，能够灵活、可扩展地生成多样化的偏好优化数据，为复杂现实场景中的代码模型优化提供了坚实基础。 CodeD…
工具测评
- 1
7月6日
Apollo – Meta 联合斯坦福大学推出的大型多模态模型

Apollo项目简介 Apollo是Meta和斯坦福大学合作推出的大型多模态模型（LMMs），专注于视频理解。Apollo基于系统研究，揭示视频理解在LMMs中的关键驱动因素，推出“Scaling Consistency”现象，即在较小模型上的设计决策能有效扩展至大型模型。Apollo项目引入ApolloBench，一个高效的视频理解评估基准，及一系列先进的Apollo模型，这些模型在不同规模上均…
工具测评
- 2
7月6日
华知大模型5.0 – 知网联合华为云推出的多模态AI大模型

华知大模型5.0项目简介华知大模型5.0是同方知网与华为云联合推出的AI大模型，具备多模态理解和生成能力。华知大模型5.0的最大亮点在于多维模型的构建能力，涵盖从7B到135B不等的多种规模模型。通过跨模态多层语义融合技术，处理学术图片、统计表格等数据，实现复杂场景下的智能识别和分割。模型采用多级思维链增强技术，提升内容生成的逻辑性和可信度，有效抑制大模型幻觉问题。华知大模型5.0优势介绍 A…
工具测评
- 2
7月6日
GTA – 上海AI Lab联合交大推出评估通用工具智能体的基准测试

GTA项目简介 GTA（a benchmark for General Tool Agents）是上海交通大学和上海AI实验室共同推出的基准测试，评估大型语言模型（LLMs）在真实世界场景中调用工具的能力。GTA基于提供真实的用户问题、真实部署的工具和多模态输入输出，建立一个全面、细粒度的评估框架，有效衡量LLMs在复杂场景下的工具使用能力。GTA包含229个人类设计的问题，覆盖感知、操作、逻辑和…
工具测评
- 1
7月6日
Neural4D 2o – DreamTech 推出支持多模态交互的 3D 模型

Neural4D 2o项目简介 Neural4D 2o 是 DreamTech 推出的全球首个支持多模态交互的 3D 大模型。模型基于文本、图像、3D 和运动数据的联合训练，实现 3D 生成的上下文一致性、高精准局部编辑、角色 ID 保持、换装和风格迁移等功能。模型支持用户基于自然语言指令实现高质量的 3D 内容创作。Neural4D 2o 原生支持 MCP 协议，上线了基于 MCP 的 Neur…
工具测评
- 1
7月6日