-
InfiMM-WebMath-40B – 字节联合中科院开源的超大规模多模态数据集
InfiMM-WebMath-40B项目简介 InfiMM-WebMath-40B 是字节跳动和中国科学院联合开源的超大规模多模态数据集,旨在提升多模态模型的图文混合推理能力,在数学领域。数据集从 Common Crawl 中提取,经过严格的筛选、清洗和标注,包含 2400 万个网页、8500 万个图像 URL 和 400 亿个文本标记,涵盖了丰富的数学和科学相关内容。InfiMM-WebMath…- 2
-
Cradle – 通用计算机控制的多模态AI Agent框架
Cradle项目简介 Cradle是面向通用计算机控制(General Computer Control, GCC)的多模态AI Agent框架,由昆仑万维携手北京智源人工智能研究院、新加坡南洋理工大学、北京大学等顶尖名校机构推出的通用计算机控制框架,使AI Agent无需训练便能像人一样直接控制键盘鼠标,不依赖任何内部API,实现任意开闭源软件交互。 Cradle是迄今为止第一个既能玩多种商业游…- 1
-
DiffBrush – 北邮联合清华等机构推出的图像生成与编辑框架
DiffBrush项目简介 DiffBrush是北京邮电大学、清华大学、中国电信人工智能研究所和西北工业大学推出的,无需训练的图像生成与编辑框架,支持用户基于手绘草图直观地控制图像生成。DiffBrush用预训练的文本到图像(T2I)模型,基于颜色引导、实例与语义引导及潜在空间再生等技术,精准控制生成图像的颜色、语义和实例分布。DiffBrush兼容多种T2I模型(如Stable Diffusio…- 1
-
AI-Infra-Guard – 腾讯开源的 AI 基础设施安全评估工具
AI-Infra-Guard项目简介 AI-Infra-Guard是腾讯开源的高效、轻量级易于使用的 AI 基础设施安全评估工具,能发现和检测 AI 系统中的潜在安全风险。AI-Infra-Guard支持 28 种 AI 框架指纹识别,涵盖 200 多个安全漏洞数据库,支持快速扫描、识别漏洞。工具开箱即用,无需复杂配置,提供灵活的 YAML 规则定义和匹配语法。AI-Infra-Guard核心组件…- 3
-
LanDiff – 浙大联合月之暗面推出的文本到视频生成混合框架
LanDiff项目简介 LanDiff是用于高质量的文本到视频(T2V)生成的创新混合框架,结合了自回归语言模型(LLM)和扩散模型(Diffusion Model)的优势,通过粗到细的生成方式,有效克服了单一方法在语义理解和视觉质量上的局限性。在VBench T2V基准测试中取得了85.43的高分,超越了包括13B的Hunyuan Video在内的多个开源和商业模型。 LanDiff优势介绍 高…- 0
-
Claude 3.5 Haiku – Anthropic推出的响应最快的AI模型
Claude 3.5 Haiku项目简介 Claude 3.5 Haiku 是 Anthropic 公司推出的一款新型人工智能模型,保持与前代 Claude 3 Haiku 相近的速度和成本的同时,实现了在各项能力上的提升,在多项基准测试中超越了 Claude 3 Opus。Claude 3.5 Haiku 专注于提供快速响应和改进的推理能力,适合需要速度和智能并重的任务,例如快速准确的代码建议、…- 0
-
JanusFlow – DeepSeek开源多模态理解与生成任务统一的框架
JanusFlow项目简介 JanusFlow是DeepSeek推出的 Janus 系列,用在多模态理解和生成任务的模型,整合自回归语言模型与校正流技术,在单一模型中实现图像理解和生成。框架基于解耦的视觉编码器和表示对齐策略,提升模型在不同任务上的性能,在多个标准基准测试中显示出与专业模型相当或更优的结果,在视觉理解上,超过了LLaVA-v1.5、Qwen-VL-Chat,在图像生成上,超过Sta…- 0
-
CustomCrafter – 腾讯联合浙大推出的自定义视频生成框架
CustomCrafter项目简介 CustomCrafter 是腾讯和浙江大学联合提出的自定义视频生成框架,能基于文本提示和参考图像生成高质量的个性化视频,同时保留了运动生成和概念组合的能力。CustomCrafter通过设计一系列灵活的模块,实现了无需额外视频,通过少量图像学习,就能生成所需的视频。CustomCrafter 支持自定义主体身份和运动模式,通过保留运动生成和概念组合能力来生成带…- 2