-
Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型
Migician项目简介 Migician是北京交通大学、华中科技大学和清华大学的研究团队联合推出的多模态大语言模型(MLLM),专门用在自由形式的多图像定位(Multi-Image Grounding, MIG)任务,设计了大规模训练数据集MGrounding-630k。根据自由形式的查询(如文本描述、图像或两者的组合)在多幅图像中识别精确定位相关的视觉区域。Migician基于大规模的指令调优…- 0
- 0
-
Gen2Act – 谷歌、卡内基梅隆、斯坦福联合推出生成人类视频引导机器人操作策略
Gen2Act项目简介 Gen2Act是由谷歌、卡内基梅隆大学和斯坦福大学共同推出的一种机器人操作策略,基于预测网络数据中的运动信息来生成人类视频,并将视频用在引导机器人执行新任务。策略基于大量可用的网络视频数据,避免直接生成机器人视频的复杂性。Gen2Act的核心在于零样本的人类视频生成,结合预训练的视频生成模型和少量的机器人交互数据训练策略。在真实世界的应用中,Gen2Act展现强大的泛化能力…- 0
- 0
-
山海大模型 – 云知声推出的多模态AI大模型
山海大模型项目简介 山海大模型是云知声推出的多模态AI大模型,具备丰富的知识储备和多模态交互能力。山海大模型能通过文本、音频、图像等多种形式与用户进行实时互动,提供信息查询、知识学习、灵感激发等服务。山海大模型特点包括实时响应、情绪感知、音色切换和视觉场景理解,最新推出的山海多模态大模型,能实现实时的多模态交互,实时生成文本、音频和图像。 山海大模型优势介绍 内容生成与理解:能生成流畅的文本并理解…- 0
- 0
-
AxBench – 斯坦福大学推出评估语言模控制方法的基准测试框架
AxBench项目简介 AxBench 是斯坦福大学推出的评估语言模型(LM)可解释性方法的基准测试框架。基于合成数据生成训练和评估数据,比较不同模型控制技术在概念检测和模型转向两个方面的表现。概念检测任务基于标记的合成数据评估模型对特定概念的识别能力;模型转向任务用长文本生成任务评估模型在干预后的表现,用另一个语言模型作为“裁判”评分。AxBench为研究者提供统一的平台,用在系统地评估和比较各…- 0
- 0
-
MindLLM – 耶鲁联合剑桥等机构推出的医疗领域 AI 模型
MindLLM项目简介 MindLLM 是耶鲁大学、达特茅斯学院和剑桥大学联合推出的AI模型,能将脑部功能性磁共振成像(fMRI)信号解码为自然语言文本。MindLLM基于一个主体无关(subject-agnostic)的 fMRI 编码器和一个大型语言模型(LLM)实现高性能解码,引入脑指令调优(Brain Instruction Tuning,BIT)技术,捕捉 fMRI 信号中的多样化语义信…- 1
- 0
-
福棠·百川 – 百川智能联合北京儿童等推出的儿科大模型
福棠·百川项目简介 福棠·百川是是国家儿童医学中心、首都医科大学附属北京儿童医院联合百川智能、小儿方健康共同发布的全球首个儿科大模型。覆盖了儿童常见病及疑难病症的立体化知识体系,具备强大的儿科临床推理能力,首创儿科“循证模式”,能像专业儿科医生一样整合最佳医学证据,为患儿制定科学、个性化的诊疗方案。模型基于万亿级token的专业医疗数据,涵盖中英文专业医疗论文、医疗指南、教材和书籍等全方位医学知识…- 0
- 0
-
新壹视频大模型 – 新壹科技推出的AI视频创作大模型
新壹视频大模型项目简介 新壹视频大模型是新壹科技推出的AI视频创作大模型,自研AI算法和深度学习技术,实现从剧本到成品的一键式创作。具备剧本生成、情感化语音合成、3D元素创建和视频自动生成等功能,大幅降低创作成本,简化操作流程,提升用户体验,推动各行业数字化转型。 新壹视频大模型优势介绍 新壹视频大模型2.0是新壹科技最新推出的AI视频创作大模型,主要特点: 一键式创作流程:集成AI算法和深度学习…- 2
- 0
-
YAYI-Ultra – 中科闻歌推出的混合专家模型
YAYI-Ultra项目简介 YAYI-Ultra (雅意)是中科闻歌研发的企业级大语言模型的旗舰版本,具备强大的多领域专业能力和多模态内容生成能力。支持数学、代码、金融、舆情、中医、安全等多个领域的专家组合,能缓解垂直领域迁移中的“跷跷板”现象。YAYI-Ultra 支持最长128k的输入和更长的上下文窗口,具备1000万+图文数据对齐的多模态能力。支持多轮对话角色扮演、内容安全风控以及10+智…- 1
- 0
-
Pipecat – 构建语音和多模态对话代理的开源框架
Pipecat项目简介 Pipecat是开源的Python框架,专注于构建语音和多模态对话代理。基于内置的语音识别、文本转语音(TTS)和对话处理功能,简化AI服务的复杂协调、网络传输、音频处理和多模态交互,让开发者能专注于创造引人入胜的用户体验。Pipecat支持与多种流行的AI服务(如OpenAI、ElevenLabs等)灵活集成,采用管道架构,支持开发者用简单、可复用的组件构建复杂的应用。P…- 1
- 0