-
Agent TARS – 字节跳动开源的多模态 AI Agent 项目
Agent TARS项目简介 Agent TARS 是字节跳动开源的多模态 AI Agent 项目。基于视觉解释网页内容,与浏览器、命令行和文件系统无缝集成,实现复杂任务的规划与执行。Agent TARS 提供桌面客户端,展示多模态元素和对话流程。Agent TARS凭借开源特性和强大的工具集成能力,成为 AI 辅助任务执行和研究的强大工具。Agent TARS目前处于技术预览阶段,仅支持 mac…- 0
- 0
-
Open Deep Research – Deep Research开源复现版智能体,支持切换多种语言模型
Open Deep Research项目简介 Open Deep Research 是开源的 AI 智能体,是Deep Research开源复现项目,基于推理大量网络数据完成复杂的多步骤研究任务。Open Deep Research使用 Firecrawl 的搜索和提取功能,不依赖 OpenAI 的 o3 微调模型。Open Deep Research支持多种语言模型(如 OpenAI、Anthr…- 0
- 0
-
Project Mariner – 谷歌推出的浏览网站智能体,能帮用户操作表格、在线购物
Project Mariner项目简介 Project Mariner 是谷歌 DeepMind 推出的浏览器助手。Project Mariner基于 Gemini 2.0 技术,用 Chrome 扩展程序实现浏览器自动化,理解和执行网页任务。Project Mariner能理解和推理浏览器屏幕上的信息,包括像素和网页元素,基于 Chrome 扩展程序使用这些信息完成任务。Project Mari…- 0
- 0
-
MotionGen – 元象科技推出的3D动作生成模型
MotionGen项目简介 MotionGen是元象科技推出的3D动作生成模型,结合了大模型、物理仿真和强化学习算法,支持用户仅通过简单文本指令即可快速生成逼真且流畅的3D动作。MotionGen极大地简化了3D动画的制作过程,提高了创作效率。MotionGen模型处于测试阶段,感兴趣的用户可以申请免费试用,体验这一创新工具。 MotionGen的功能特色 文本到动作的转换:用户只需输入简单的文本…- 1
- 0
-
SafeEar – 浙大和清华联合开源的AI音频伪造检测框架
SafeEar项目简介 SafeEar是由浙江大学和清华大学联合开发的AI音频伪造检测框架,保护用户隐私的同时检测音频伪造。采用基于神经音频编解码器的解耦模型,分离语音的声学信息和语义信息,用声学信息进行检测,有效防止隐私泄露。SafeEar在多个基准数据集上表现优异,等错误率(EER)低至2.02%,能抵御内容恢复攻击。SafeEar提供了多语言支持,构建了包含150万条多语种音频数据的CVoi…- 0
- 0
-
TeleAI-t1-preview – 中国电信推出的复杂推理大模型
TeleAI-t1-preview项目简介 TeleAI-t1-preview是中国电信人工智能研究院发布的“复杂推理大模型”,具备强大的逻辑推理与数学推导能力。通过强化学习训练方法,引入探索、反思等思考范式,提升了复杂问题的解答精度。在2024年美国数学竞赛AIME和MATH500评测中,模型分别获得60分和93.8分,超越OpenAI的o1-preview和GPT-4o等标杆模型。能精准处理《…- 1
- 0
-
ArtCrafter – 清华联合鹏城实验室和联想共同推出的文本到图像风格迁移框架
ArtCrafter项目简介 ArtCrafter是清华大学、鹏城实验室和联想研究院共同推出的文本到图像风格迁移框架,基于扩散模型,解决传统方法在风格表达、内容一致性和输出多样性方面的局限。ArtCrafter基于嵌入重构架构实现,包含三个关键组件:基于注意力的风格提取模块,用多层架构和感知器注意力机制从参考图像中提取细腻的风格特征;文本-图像对齐增强模块,基于注意力交互将图像和文本嵌入映射到共享…- 0
- 0
-
Skywork-VL Reward – Skywork AI开源的多模态奖励模型
Skywork-VL Reward项目简介 Skywork-VL Reward是Skywork AI开源的多模态奖励模型,能为多模态理解和推理任务提供可靠的奖励信号。模型基于Qwen2.5-VL-7B-Instruct架构,基于添加奖励头结构,用成对偏好数据进行训练,输出与人类偏好对齐的标量奖励分数。模型在VL-RewardBench上取得了73.1的SOTA成绩,在RewardBench上表现出…- 0
- 0
-
AutoRAG – Cloudflare 推出的全托管检索增强生成服务
AutoRAG项目简介 AutoRAG 是Cloudflare推出的全托管的检索增强生成(RAG)管道,帮助开发者轻松将上下文感知的 AI 集成到应用程序中,无需管理基础设施。Cloudflare AutoRAG 基于自动索引数据源、持续更新内容,结合 Cloudflare 的 Workers AI、Vectorize 等技术,实现高效的数据检索和高质量的 AI 响应。AutoRAG 支持用在构建…- 0
- 0
-
StarVector – 开源多模态视觉语言模型,支持图像和文本到 SVG 生成
StarVector项目简介 StarVector 是开源的多模态视觉语言模型,ServiceNow Research、Mila – Quebec AI Institute 和 ETS Montreal 联合开发,专注于将图像和文本转换为可缩放矢量图形(SVG)代码。 模型采用多模态架构,能同时处理图像和文本信息,直接在 SVG 代码空间中操作,生成标准的、可编辑的 SVG 文件。StarVect…- 1
- 0
-
InstantCharacter – 腾讯混元开源的定制化图像生成插件
InstantCharacter项目简介 InstantCharacter 是腾讯混元开源的定制化图像生成插件。基于扩散 Transformer(DiT)框架,引入可扩展的适配器(包含多个 Transformer encoder)和千万级样本的大规模角色数据集,实现高保真、文本可控且角色一致的图像生成。InstantCharacter支持用户提供一张角色图片和简单的文字描述,让角色用任意姿势出现在…- 0
- 0
-
BiliNote – 开源 AI 视频笔记工具,自动提取视频内容生成Markdown格式
BiliNote项目简介 BiliNote 是开源的 AI 视频笔记助手,支持基于哔哩哔哩、YouTube 等视频链接,自动提取视频内容生成结构清晰、重点明确的 Markdown 格式笔记。BiliNote支持本地音频转写(如 Fast-Whisper)、大模型总结(如 OpenAI、DeepSeek、Qwen)等功能。BiliNote 提供截图插入、内容跳转链接及任务记录等实用特性。BiliNo…- 0
- 0
-
HoloPart – 港大联合 VAST 开源生成完整可编辑部件的 3D 模型
HoloPart项目简介 HoloPart 是香港大学、VAST 团队推出的新型扩散模型,支持将 3D 物体分解为完整、可编辑的语义部件,即使部件被遮挡。HoloPar基于两阶段方法,用局部注意力和全局上下文注意力机制,确保零件的细节和整体形状的一致性。HoloPart 在 ABO 和 PartObjaverse-Tiny 数据集上的表现显著优于现有方法,为几何编辑、材质编辑和动画制作等下游应用提…- 1
- 0
-
AvatarFX – Character.AI 推出的 AI 视频生成模型
AvatarFX项目简介 AvatarFX 是 Character.AI 推出的先进 AI 视频生成模型。基于上传一张图片和选择声音,让角色瞬间“活起来”,实现说话、唱歌和表达情感。AvatarFX支持多角色、多轮对话,从单张图片生成高质量视频。AvatarFX 配备强大的安全措施,防止深度伪造和滥用,确保用户创作的安全性和合法性。AvatarFX为创作者和用户提供沉浸式的互动故事创作体验,推动 …- 1
- 0
-
AgentSquare – 清华推出模块化智能体系统设计和搜索新框架
AgentSquare项目简介 AgentSquare是清华大学团队推出自动在模块化设计空间中搜索大型语言模型代理。基于标准化的模块接口抽象,实现AI智能体的高速自我演化和自适应演进。框架包含任务规划、常识推理、工具使用和记忆学习四个核心模块,支持智能体针对不同任务场景的优化设计。AgentSquare基于模块重组、模块进化和代理评测模型,解决智能体设计的搜索问题,显著提升智能体的性能,有效控制推…- 2
- 0
-
PromptWizard – 微软开源的 AI 提示词自动化优化框架
PromptWizard PromptWizard是微软推出的自动化提示优化框架,改进大型语言模型(LLMs)在特定任务中的表现。基于自我演变和自我适应机制,PromptWizard用反馈驱动的批评和合成过程,在探索和利用之间找到平衡,迭代地优化提示指令和上下文示例,提高模型的准确性和效率,减少API调用和令牌使用,降低成本。PromptWizard在多个任务和数据集上展现卓越的性能,即使在训练数…- 1
- 0