-
R1-Onevision – 开源多模态视觉推理模型,基于 Qwen2.5-VL 微调
R1-Onevision项目简介 R1-Onevision 是开源的多模态大语言模型,专注于复杂视觉推理任务。基于 Qwen2.5-VL 微调而成,通过整合视觉和文本数据,能精准地进行多模态信息解释。在数学、科学、深度图像理解和逻辑推理等领域表现出色,在多项推理基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。 能同时处理图像和文本输入,通过先进的 embedding 技术实…- 2
- 0
-
Qwen2.5-Omni-3B – 阿里 Qwen 团队推出的轻量级多模态 AI 模型
Qwen2.5-Omni-3B项目简介 Qwen2.5-Omni-3B 是阿里巴巴 Qwen 团队推出的轻量级多模态 AI 模型。是 Qwen2.5-Omni-7B 的精简版,专为消费级硬件设计,支持文本、音频、图像和视频等多种输入功能。参数量从 7B 缩减到 3B,多模态性能仍保持了 7B 模型 90% 以上,在实时文本生成和自然语音输出方面表现突出。模型在处理 25,000 token 的长上…- 2
- 0