AI逻界
首页
AI工具大全
AI教程
AI资讯
工具测评
AI工具
AI工具
文章
AI逻界
AI写作
AI办公
AI图像
AI视频
AI训练
AI设计
AI问答
AI音频
全部标签
Kyutai
MoshiVis – Kyutai 开源的多模态实时语音模型
MoshiVis项目简介 MoshiVis 是 Kyutai 推出的开源多模态语音模型,基于 Moshi 实时对话语音模型开发,增加了视觉输入功能。能实现图像的自然、实时语音交互,将语音和视觉信息相结合,让用户可以通过语音与模型交流图像内容。模型在 Moshi 的 7B 基础架构上,增加了约 206M 的适配器参数,集成了 400M 的 PaliGemma2 视觉编码器。通过跨注意力机制和门控机制…
工具测评
2
0
发布文章
发布快讯
创建圈子
发表话题
发布供求信息
发布问答
发布AI工具
提交工单