全部标签

工具测评

最新随机最多浏览最多喜欢

CogAgent-9B – 智谱AI开源 GLM-PC 的基座模型

CogAgent-9B项目简介 CogAgent-9B是基于 GLM-4V-9B 训练的专用Agent任务模型，仅依赖屏幕截图作为输入，无需HTML等文本表征。CogAgent-9B支持高分辨率图像处理，具备双语（中英文）交互能力，能预测并执行GUI操作，实现自动化任务。在多个GUI操作数据集上取得了领先成绩，模型已开源，推动大模型Agent生态的发展。CogAgent-9B可广泛应用于个人电脑、…
工具测评
- 1
7月7日
Co-Sight – 中兴通讯开源的超级智能体项目

Co-Sight项目简介 Co-Sight是中兴通讯开源的超级智能体项目，为协同视觉分析平台及智能自动化底座。采用多智能体架构，构建“数字团队”协同体系，通过DAG任务引擎驱动，实现任务的高效调度与执行。Co-Sight具备自我进化能力，能通过执行记录与模型推理自动生成智能总结报告，形成持续改进闭环。注重安全与可靠性，所有操作在沙箱环境中运行，支持日志追溯、权限管控与合规审计。 Co-Sight优…
工具测评
- 2
6月7日
node-DeepResearch – Deep Research开源复现版 AI Agent，支持多步推理和复杂查询

node-DeepResearch项目简介 node-DeepResearch 是开源的 AI 智能体项目，基于持续搜索和阅读网页，用 Gemini 语言模型和 Jina Reader 工具，逐步推理、回答复杂问题，直到找到答案或超出 token 预算。项目支持多步推理和复杂查询，能处理从简单问题到多步推理的复杂任务。node-DeepResearch提供 Web Server API，方便用户基…
工具测评
- 2
7月19日
Janus – DeepSeek推出的自回归框架，统一多模态理解和生成任务

Janus项目简介 Janus是一个由DeepSeek AI推出的自回归框架，旨在统一多模态理解和生成任务。将视觉编码分离成不同的路径解决以往方法的局限性，且用单一的变换器架构进行处理。减轻视觉编码器在理解和生成任务中的角色冲突，提高框架的灵活性。Janus在性能上超越以往的统一模型，在某些情况下超过特定任务模型的性能。Janus的设计支持未来能轻松集成更多类型的输入模态，如点云、EEG信号或音频…
工具测评
- 2
6月16日
Pippo – Meta 推出的单图生成多视角高清人像视频模型

Pippo项目简介 Pippo是Meta Reality Labs推出的图像到视频生成模型，能从单张照片生成1K分辨率的多视角高清人像视频。模型基于多视角扩散变换器，预训练了30亿张人像图像，在2500张工作室捕捉的图像上进行了后训练。Pippo的核心技术包括ControlMLP模块，用于注入像素对齐的条件，以及注意力偏差技术，能在推理时生成比训练时多5倍以上的视角。Pippo引入了重投影误差，用…
工具测评
- 0
6月26日
Kimi-Audio – Moonshot AI 开源的音频基础模型

Kimi-Audio项目简介 Kimi-Audio 是 Moonshot AI 推出的开源音频基础模型，专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频数据上进行预训练，具备强大的音频推理和语言理解能力。核心架构采用混合音频输入（连续声学 + 离散语义标记），结合基于 LLM 的设计，支持并行生成文本和音频标记，同时通过分块流式解码器实现低延迟音频生成。 Kimi-Audio优…
工具测评
- 0
7月4日
Ola – 清华联合腾讯等推出的全模态语言模型

Ola项目简介 Ola是清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。通过渐进式模态对齐策略，逐步扩展语言模型支持的模态，从图像和文本开始，再引入语音和视频数据，实现对多种模态的理解。Ola 的架构支持全模态输入，包括文本、图像、视频和音频，能同时处理这些输入。Ola 设计了逐句解码方案用于流式语音生成，提升交互体验。 Ola优势介绍多模态理解：…
工具测评
- 2
6月9日
Weebo – AI语音聊天机器人，实时响应用户语音指令和问题

Weebo项目简介 Weebo是实时语音聊天机器人，基于Whisper Small、Llama 3.2和Kokoro-82M技术驱动。能通过语音识别和生成技术，与用户进行自然流畅的对话，提供实时的语音交互体验。Weebo可以应用于多种场景，如个人助理、娱乐互动和教育辅导等。 Weebo优势介绍语音到语音交互：用户可以通过语音与Weebo进行交流，无需手动输入文字，交互更加自然和便捷。实时对话：…
工具测评
- 0
7月15日