全部标签

医疗

Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型

Migician项目简介 Migician是北京交通大学、华中科技大学和清华大学的研究团队联合推出的多模态大语言模型（MLLM），专门用在自由形式的多图像定位（Multi-Image Grounding, MIG）任务，设计了大规模训练数据集MGrounding-630k。根据自由形式的查询（如文本描述、图像或两者的组合）在多幅图像中识别精确定位相关的视觉区域。Migician基于大规模的指令调优…
工具测评
- 0
- 0
AI逻界7小时前
Gen2Act – 谷歌、卡内基梅隆、斯坦福联合推出生成人类视频引导机器人操作策略

Gen2Act项目简介 Gen2Act是由谷歌、卡内基梅隆大学和斯坦福大学共同推出的一种机器人操作策略，基于预测网络数据中的运动信息来生成人类视频，并将视频用在引导机器人执行新任务。策略基于大量可用的网络视频数据，避免直接生成机器人视频的复杂性。Gen2Act的核心在于零样本的人类视频生成，结合预训练的视频生成模型和少量的机器人交互数据训练策略。在真实世界的应用中，Gen2Act展现强大的泛化能力…
工具测评
- 0
- 0
AI逻界7小时前
山海大模型 – 云知声推出的多模态AI大模型

山海大模型项目简介山海大模型是云知声推出的多模态AI大模型，具备丰富的知识储备和多模态交互能力。山海大模型能通过文本、音频、图像等多种形式与用户进行实时互动，提供信息查询、知识学习、灵感激发等服务。山海大模型特点包括实时响应、情绪感知、音色切换和视觉场景理解，最新推出的山海多模态大模型，能实现实时的多模态交互，实时生成文本、音频和图像。山海大模型优势介绍内容生成与理解：能生成流畅的文本并理解…
工具测评
- 0
- 0
AI逻界6月13日
AxBench – 斯坦福大学推出评估语言模控制方法的基准测试框架

AxBench项目简介 AxBench 是斯坦福大学推出的评估语言模型（LM）可解释性方法的基准测试框架。基于合成数据生成训练和评估数据，比较不同模型控制技术在概念检测和模型转向两个方面的表现。概念检测任务基于标记的合成数据评估模型对特定概念的识别能力；模型转向任务用长文本生成任务评估模型在干预后的表现，用另一个语言模型作为“裁判”评分。AxBench为研究者提供统一的平台，用在系统地评估和比较各…
工具测评
- 0
- 0
AI逻界6月11日
MindLLM – 耶鲁联合剑桥等机构推出的医疗领域 AI 模型

MindLLM项目简介 MindLLM 是耶鲁大学、达特茅斯学院和剑桥大学联合推出的AI模型，能将脑部功能性磁共振成像（fMRI）信号解码为自然语言文本。MindLLM基于一个主体无关（subject-agnostic）的 fMRI 编码器和一个大型语言模型（LLM）实现高性能解码，引入脑指令调优（Brain Instruction Tuning，BIT）技术，捕捉 fMRI 信号中的多样化语义信…
工具测评
- 1
- 0
AI逻界6月10日
福棠·百川 – 百川智能联合北京儿童等推出的儿科大模型

福棠·百川项目简介福棠·百川是是国家儿童医学中心、首都医科大学附属北京儿童医院联合百川智能、小儿方健康共同发布的全球首个儿科大模型。覆盖了儿童常见病及疑难病症的立体化知识体系，具备强大的儿科临床推理能力，首创儿科“循证模式”，能像专业儿科医生一样整合最佳医学证据，为患儿制定科学、个性化的诊疗方案。模型基于万亿级token的专业医疗数据，涵盖中英文专业医疗论文、医疗指南、教材和书籍等全方位医学知识…
工具测评
- 0
- 0
AI逻界6月7日
新壹视频大模型 – 新壹科技推出的AI视频创作大模型

新壹视频大模型项目简介新壹视频大模型是新壹科技推出的AI视频创作大模型，自研AI算法和深度学习技术，实现从剧本到成品的一键式创作。具备剧本生成、情感化语音合成、3D元素创建和视频自动生成等功能，大幅降低创作成本，简化操作流程，提升用户体验，推动各行业数字化转型。新壹视频大模型优势介绍新壹视频大模型2.0是新壹科技最新推出的AI视频创作大模型，主要特点：一键式创作流程：集成AI算法和深度学习…
工具测评
- 2
- 0
AI逻界6月6日
YAYI-Ultra – 中科闻歌推出的混合专家模型

YAYI-Ultra项目简介 YAYI-Ultra （雅意）是中科闻歌研发的企业级大语言模型的旗舰版本，具备强大的多领域专业能力和多模态内容生成能力。支持数学、代码、金融、舆情、中医、安全等多个领域的专家组合，能缓解垂直领域迁移中的“跷跷板”现象。YAYI-Ultra 支持最长128k的输入和更长的上下文窗口，具备1000万+图文数据对齐的多模态能力。支持多轮对话角色扮演、内容安全风控以及10+智…
工具测评
- 1
- 0
AI逻界6月6日
Pipecat – 构建语音和多模态对话代理的开源框架

Pipecat项目简介 Pipecat是开源的Python框架，专注于构建语音和多模态对话代理。基于内置的语音识别、文本转语音（TTS）和对话处理功能，简化AI服务的复杂协调、网络传输、音频处理和多模态交互，让开发者能专注于创造引人入胜的用户体验。Pipecat支持与多种流行的AI服务（如OpenAI、ElevenLabs等）灵活集成，采用管道架构，支持开发者用简单、可复用的组件构建复杂的应用。P…
工具测评
- 1
- 0
AI逻界6月6日