-
ScaleMCP – 普华永道推出的动态MCP工具检索器
ScaleMCP项目简介 ScaleMCP是普华永道推出的工具选择方法,动态的为大型语言模型(LLM)Agents 配备Model Context Protocol(MCP)工具。基于自动同步工具存储系统与MCP服务器,解决现有框架依赖手动更新本地工具库导致的低效和不一致问题。ScaleMCP的核心是自动同步工具索引管道,基于CRUD操作(创建、读取、更新、删除)确保工具存储与MCP服务器保持一致…- 0
- 0
-
Prometheus – 浙大联合蚂蚁等高校推出的3D感知潜在扩散模型
Prometheus项目简介 Prometheus是创新的3D感知潜在扩散模型,专门用于快速生成文本到3D场景的内容。能在几秒钟内完成对象和场景级别的3D生成,同时保持高质量的输出和良好的泛化能力。核心在于基于2D先验知识来驱动高效且可泛化的3D合成过程。通过将3D场景生成表述为多视图、前馈、像素对齐的3D高斯生成过程,在潜在扩散范式内进行操作,Prometheus能有效地从文本描述中生成具有丰富…- 0
- 0
-
Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型
Migician项目简介 Migician是北京交通大学、华中科技大学和清华大学的研究团队联合推出的多模态大语言模型(MLLM),专门用在自由形式的多图像定位(Multi-Image Grounding, MIG)任务,设计了大规模训练数据集MGrounding-630k。根据自由形式的查询(如文本描述、图像或两者的组合)在多幅图像中识别精确定位相关的视觉区域。Migician基于大规模的指令调优…- 0
- 0
-
SnapGen – Snap联合港科大等机构推出的移动端文生图模型
SnapGen项目简介 SnapGen是Snap Inc、香港科技大学、墨尔本大学等机构联合推出的文本到图像(T2I)扩散模型,能在移动设备上快速生成高分辨率(1024×1024像素)的图像,且只需1.4秒。模型用379M参数实现这一性能,显著减少模型大小和计算需求,同时在GenEval指标上达到0.66的高分,超越许多参数量更大的SDXL和IF-XL模型。SnapGen基于优化网络架构、跨架构知…- 0
- 0
-
Animate-X – 阿里巴巴开源的通用动画生成框架
Animate-X项目简介 Animate-X是基于LDM的通用动画框架,能将静态图像转化为动态视频,擅长处理拟人化角色。 通过引入姿势指示器,增强了对运动模式的捕捉能力,包括隐式和显式运动特征。 Animate-X适用于人类角色,能处理卡通人物或游戏角色等非人类角色动画,无需严格的图像对齐。 技术主要应用广泛,包括游戏开发、电影和视频制作、虚拟现实以及社交媒体内容创作。 Animate-X优势介…- 1
- 0
-
Gen2Act – 谷歌、卡内基梅隆、斯坦福联合推出生成人类视频引导机器人操作策略
Gen2Act项目简介 Gen2Act是由谷歌、卡内基梅隆大学和斯坦福大学共同推出的一种机器人操作策略,基于预测网络数据中的运动信息来生成人类视频,并将视频用在引导机器人执行新任务。策略基于大量可用的网络视频数据,避免直接生成机器人视频的复杂性。Gen2Act的核心在于零样本的人类视频生成,结合预训练的视频生成模型和少量的机器人交互数据训练策略。在真实世界的应用中,Gen2Act展现强大的泛化能力…- 0
- 0
-
Avat3r – 慕尼黑大学联合 Meta 推出的 3D 高斯头像生成模型
Avat3r项目简介 Avat3r 是慕尼黑工业大学和 Meta Reality Labs 推出的高保真三维头部头像的大型可动画高斯重建模型,仅需几张输入图像,能生成高质量且可动画化的 3D 头部头像,降低了计算需求。模型通过大型多角度视频数据集学习强大的三维人头先验,结合 DUSt3R 的位置图和 Sapiens 的特征图,优化重建效果。Avat3r 的关键创新在于通过简单的交叉注意力机制实现表…- 0
- 0
-
HourVideo – 李飞飞和吴佳俊团队推出的长视频理解基准数据集
HourVideo项目简介 HourVideo是斯坦福大学李飞飞和吴佳俊团队推出的长视频理解基准数据集,包含500个第一人称视角视频,时长20至120分钟,覆盖77种日常活动,能评估多模态模型对长视频的理解能力。数据集基于一系列任务,如总结、感知、视觉推理和导航,测试模型对视频中多个时间片段信息的识别和综合能力,推动长视频理解技术的发展。 HourVideo优势介绍 长视频理解评估:基于包含长达一…- 0
- 0
-
Self-Taught Evaluators – Meta推出的新型模型评估方法
Self-Taught Evaluators项目简介 Self-Taught Evaluators是一种新型的模型评估方法,基于自我训练的方式提高大型语言模型(LLM)的评估能力,无需人工标注数据。从未经标记的指令开始,用迭代自我改进方案生成对比模型输出。用LLM作为裁判,生成推理轨迹和最终判断。在每次迭代中重复,用改进的预测训练模型。在实验中,Self-Taught Evaluators提高基于…- 0
- 0
-
MinT – 生成顺序事件的文本转视频模型,灵活控制时间戳
MinT项目简介 MinT(Mind the Time)是Snap Research、多伦多大学和向量研究所联合推出的多事件视频生成框架,基于精确的时间控制,根据文本提示生成包含多个事件的视频序列。MinT的核心技术是时间基位置编码(ReRoPE),让模型能将特定的文本提示与视频中的相应时间段关联起来,确保事件按顺序发生,控制每个事件的持续时间。作为首个提供视频中事件时间控制的模型,MinT在生成…- 0
- 0
-
TIP-I2V – 超170万大规模真实文本和图像提示数据集
TIP-I2V项目简介 TIP-I2V是大规模真实文V本和图像提示数据集,用在图像到视频生成领域。TIP-I2V包含超过170万独特的用户文本和图像提示,及五种SOTA图生视频模型生成的相应视频。数据集能推动更好、更安全的图像到视频模型的发展,帮助研究人员分析用户偏好,评估模型性能,解决图像到视频模型引起的错误信息问题。 TIP-I2V优势介绍 用户偏好分析:分析用户提交的文本和图像提示,研究人员…- 0
- 0
-
CustomCrafter – 腾讯联合浙大推出的自定义视频生成框架
CustomCrafter项目简介 CustomCrafter 是腾讯和浙江大学联合提出的自定义视频生成框架,能基于文本提示和参考图像生成高质量的个性化视频,同时保留了运动生成和概念组合的能力。CustomCrafter通过设计一系列灵活的模块,实现了无需额外视频,通过少量图像学习,就能生成所需的视频。CustomCrafter 支持自定义主体身份和运动模式,通过保留运动生成和概念组合能力来生成带…- 0
- 0
-
Step1X-3D – 阶跃星辰联合LightIllusions开源的3D资产生成框架
Step1X-3D项目简介 Step1X-3D 是StepFun联合LightIllusions推出的高保真、可控的 3D 资产生成框架。基于严格的数据整理流程,从超过 500 万个 3D 资产中筛选出 200 万个高质量数据,创建标准化的几何和纹理属性数据集。Step1X-3D 支持多模态条件输入,如文本和语义标签,基于低秩自适应(LoRA)微调实现灵活的几何控制。Step1X-3D 推动了 3…- 0
- 0
-
SAC-KG – 通用知识图谱构建框架,能构建超百万节点的领域知识图谱
SAC-KG项目简介 SAC-KG是基于大型语言模型(LLMs)自动构建领域知识图谱的通用框架。由生成器、验证器和剪枝器三个主要组件构成,能自动从原始领域语料库中生成特定领域的一级知识图谱,确保生成的三元组的准确性。SAC-KG能构建超过百万节点规模的领域知识图谱,达到89.32%的精度,比现有最先进方法提高了20%以上的精度。这一框架有效地利用LLMs作为领域专家,生成专业且准确的多层级知识图谱…- 0
- 0
-
DreaMoving – 阿里开源的基于扩散模型的人类视频生成框架
DreaMoving项目简介 DreaMoving是一个基于扩散模型的人类视频生成框架,由阿里巴巴集团的研究团队开发。DreaMoving通过视频控制网络和内容引导器实现对人物动作和外观的精确控制,使得用户可以通过简单的文本描述或图像提示来生成个性化的视频内容。该框架的目标是生成高质量的定制化人类视频,特别是能够根据给定的目标身份和姿势序列生成目标身份移动或跳舞的视频内容。 DreaMoving的…- 0
- 0
-
Seed1.5-VL – 字节跳动Seed推出的视觉语言多模态大模型
Seed1.5-VL项目简介 Seed1.5-VL 是字节跳动 Seed 团队最新发布的视觉-语言多模态大模型,具备强大的通用多模态理解和推理能力,推理成本显著降低。模型由一个 532M 参数的视觉编码器和一个 20B 活动参数的混合专家(MoE)LLM 组成。在 60 个公开评测基准中的 38 个上取得了最佳表现,在交互式代理任务中也优于 OpenAI CUA 和 Claude 3.7 等领先的…- 0
- 0
-
ShotAdapter – Adobe联合UIUC推出的多镜头视频生成框架
ShotAdapter项目简介 ShotAdapter是Adobe联合UIUC推出的用在文本到多镜头视频生成的框架,基于微调预训练的文本到视频模型,引入过渡标记和局部注意力掩码策略,实现对多镜头视频的生成。框架能确保角色在不同镜头中的身份一致性,支持用户用特定的文本提示控制镜头的数量、时长和内容。ShotAdapter推出从单镜头视频数据集中构建多镜头视频数据集的新方法,基于采样、分割和拼接视频片…- 0
- 0
-
TRELLIS – 微软联合清华和中科大推出的高质量 3D 生成模型
TRELLIS项目简介 TRELLIS是清华大学、中国科学技术大学和微软研究院推出的3D生成模型,基于Structured LATent(SLAT)表示法,从文本或图像提示中生成高质量、多样化的3D资产。模型融合稀疏的3D网格结构和从多视角提取的密集视觉特征,全面捕捉3D资产的几何和外观信息。TRELLIS用修正流变换器作为其核心,处理SLAT的稀疏性,在大规模3D资产数据集上训练,参数高达20亿…- 0
- 0
-
SEMIKONG – 专为半导体领域设计的大型语言模型
SEMIKONG项目简介 SEMIKONG是专门为半导体行业定制的大型语言模型(LLM),是Aitomatic、FPT Software和东京电子有限公司联合推出的。基于深入的领域知识,解决半导体制造和设计中的独特挑战,如复杂的物理和化学问题。SEMIKONG整合专家知识和优化预训练过程,提供能专家级理解刻蚀问题的基础模型。相较于通用LLMs,SemiKong在半导体制造任务中展现出更优的性能,为…- 0
- 0
-
OLMoE – 完全开源的大语言模型,基于混合专家(MoE)架构
OLMoE项目简介 OLMoE(Open Mixture-of-Experts Language Models)是一个完全开源的大型语言模型,基于混合专家(MoE)架构。OLMoE基于5万亿个token进行预训练,拥有70亿总参数和10亿活跃参数。模型在每一层中只有一部分专家根据输入被激活,比传统密集模型更高效,降低计算成本。OLMoE的设计在保持高性能的同时,训练速度更快,推理成本更低,能与更大…- 0
- 0
-
Goedel-Prover – 自动化数学问题的形式证明生成开源推理模型
Goedel-Prover项目简介 Goedel-Prover(哥德尔证明器)是普林斯顿大学、清华大学、清华大学等机构推出的开源大型语言模型(LLM),用在自动化数学问题的形式证明生成。基于将自然语言数学问题翻译成形式语言(如Lean 4)生成形式化证明,解决形式化数学陈述和证明稀缺的问题。Goedel-Prover用专家迭代方法训练,基于不断扩展形式证明数据集,逐步提升证明能力。在多个基准测试中…- 0
- 0
-
AnimeGamer – 腾讯联合香港城市大学推出的动漫生活模拟系统
AnimeGamer项目简介 AnimeGamer 是腾讯 PCG 和香港城市大学共同推出的无限动漫生活模拟系统。基于多模态大语言模型(MLLM),支持玩家基于开放式的语言指令,用动漫角色的身份沉浸于动态游戏世界中。玩家能操控如《悬崖上的金鱼姬》中的宗介等角色,与游戏世界互动。游戏支持生成具有上下文一致性的动态动画镜头(视频)及角色状态(如体力、社交和娱乐值)的更新。相比传统方法,AnimeGam…- 0
- 0
-
LatentLM – 微软联合清华推出的多模态生成模型
LatentLM项目简介 LatentLM是微软研究院和清华大学共同推出的多模态生成模型,能统一处理离散数据(如文本)和连续数据(如图像、音频)。模型用变分自编码器(VAE)将连续数据编码为潜在向量,引入下一个词扩散技术自回归生成向量。LatentLM基于因果Transformer架构实现不同模态间信息共享,提高模型在多模态任务中的性能和可扩展性。LatentLM推出σ-VAE解决方差崩溃问题,增…- 0
- 0
-
FaceShot – 同济大学联合上海 AI Lab等推出的肖像动画生成框架
FaceShot项目简介 FaceShot是同济大学、上海 AI Lab和南京理工大学推出的新型无需训练的肖像动画生成框架。用外观引导的地标匹配模块和基于坐标的地标重定位模块,为各种角色生成精确且鲁棒的地标序列,基于潜在扩散模型的语义对应关系,跨越广泛的角色类型生成面部动作序列。将地标序列输入预训练的地标驱动动画模型生成动画视频。FaceShot突破对现实肖像地标的限制,适用于任何风格化的角色和驱…- 0
- 0