全部标签

Qwen2.5

R1-Onevision – 开源多模态视觉推理模型，基于 Qwen2.5-VL 微调

R1-Onevision项目简介 R1-Onevision 是开源的多模态大语言模型，专注于复杂视觉推理任务。基于 Qwen2.5-VL 微调而成，通过整合视觉和文本数据，能精准地进行多模态信息解释。在数学、科学、深度图像理解和逻辑推理等领域表现出色，在多项推理基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。能同时处理图像和文本输入，通过先进的 embedding 技术实…
工具测评
- 2
- 0
AI逻界15小时前
Qwen2.5-Omni-3B – 阿里 Qwen 团队推出的轻量级多模态 AI 模型

Qwen2.5-Omni-3B项目简介 Qwen2.5-Omni-3B 是阿里巴巴 Qwen 团队推出的轻量级多模态 AI 模型。是 Qwen2.5-Omni-7B 的精简版，专为消费级硬件设计，支持文本、音频、图像和视频等多种输入功能。参数量从 7B 缩减到 3B，多模态性能仍保持了 7B 模型 90% 以上，在实时文本生成和自然语音输出方面表现突出。模型在处理 25,000 token 的长上…
工具测评
- 2
- 0
AI逻界6月11日