-
CogAgent-9B – 智谱AI开源 GLM-PC 的基座模型
CogAgent-9B项目简介 CogAgent-9B是基于 GLM-4V-9B 训练的专用Agent任务模型,仅依赖屏幕截图作为输入,无需HTML等文本表征。CogAgent-9B支持高分辨率图像处理,具备双语(中英文)交互能力,能预测并执行GUI操作,实现自动化任务。在多个GUI操作数据集上取得了领先成绩,模型已开源,推动大模型Agent生态的发展。CogAgent-9B可广泛应用于个人电脑、…- 1
-
Co-Sight – 中兴通讯开源的超级智能体项目
Co-Sight项目简介 Co-Sight是中兴通讯开源的超级智能体项目,为协同视觉分析平台及智能自动化底座。采用多智能体架构,构建“数字团队”协同体系,通过DAG任务引擎驱动,实现任务的高效调度与执行。Co-Sight具备自我进化能力,能通过执行记录与模型推理自动生成智能总结报告,形成持续改进闭环。注重安全与可靠性,所有操作在沙箱环境中运行,支持日志追溯、权限管控与合规审计。 Co-Sight优…- 2
-
node-DeepResearch – Deep Research开源复现版 AI Agent,支持多步推理和复杂查询
node-DeepResearch项目简介 node-DeepResearch 是开源的 AI 智能体项目,基于持续搜索和阅读网页,用 Gemini 语言模型和 Jina Reader 工具,逐步推理、回答复杂问题,直到找到答案或超出 token 预算。项目支持多步推理和复杂查询,能处理从简单问题到多步推理的复杂任务。node-DeepResearch提供 Web Server API,方便用户基…- 2
-
Janus – DeepSeek推出的自回归框架,统一多模态理解和生成任务
Janus项目简介 Janus是一个由DeepSeek AI推出的自回归框架,旨在统一多模态理解和生成任务。将视觉编码分离成不同的路径解决以往方法的局限性,且用单一的变换器架构进行处理。减轻视觉编码器在理解和生成任务中的角色冲突,提高框架的灵活性。Janus在性能上超越以往的统一模型,在某些情况下超过特定任务模型的性能。Janus的设计支持未来能轻松集成更多类型的输入模态,如点云、EEG信号或音频…- 2
-
Pippo – Meta 推出的单图生成多视角高清人像视频模型
Pippo项目简介 Pippo是Meta Reality Labs推出的图像到视频生成模型,能从单张照片生成1K分辨率的多视角高清人像视频。模型基于多视角扩散变换器,预训练了30亿张人像图像,在2500张工作室捕捉的图像上进行了后训练。Pippo的核心技术包括ControlMLP模块,用于注入像素对齐的条件,以及注意力偏差技术,能在推理时生成比训练时多5倍以上的视角。Pippo引入了重投影误差,用…- 0
-
Kimi-Audio – Moonshot AI 开源的音频基础模型
Kimi-Audio项目简介 Kimi-Audio 是 Moonshot AI 推出的开源音频基础模型,专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频数据上进行预训练,具备强大的音频推理和语言理解能力。核心架构采用混合音频输入(连续声学 + 离散语义标记),结合基于 LLM 的设计,支持并行生成文本和音频标记,同时通过分块流式解码器实现低延迟音频生成。 Kimi-Audio优…- 0
-
Ola – 清华联合腾讯等推出的全模态语言模型
Ola项目简介 Ola是清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。通过渐进式模态对齐策略,逐步扩展语言模型支持的模态,从图像和文本开始,再引入语音和视频数据,实现对多种模态的理解。Ola 的架构支持全模态输入,包括文本、图像、视频和音频,能同时处理这些输入。Ola 设计了逐句解码方案用于流式语音生成,提升交互体验。 Ola优势介绍 多模态理解:…- 2
-
Weebo – AI语音聊天机器人,实时响应用户语音指令和问题
Weebo项目简介 Weebo是实时语音聊天机器人,基于Whisper Small、Llama 3.2和Kokoro-82M技术驱动。能通过语音识别和生成技术,与用户进行自然流畅的对话,提供实时的语音交互体验。Weebo可以应用于多种场景,如个人助理、娱乐互动和教育辅导等。 Weebo优势介绍 语音到语音交互:用户可以通过语音与Weebo进行交流,无需手动输入文字,交互更加自然和便捷。 实时对话:…- 0