-
CustomCrafter – 腾讯联合浙大推出的自定义视频生成框架
CustomCrafter项目简介 CustomCrafter 是腾讯和浙江大学联合提出的自定义视频生成框架,能基于文本提示和参考图像生成高质量的个性化视频,同时保留了运动生成和概念组合的能力。CustomCrafter通过设计一系列灵活的模块,实现了无需额外视频,通过少量图像学习,就能生成所需的视频。CustomCrafter 支持自定义主体身份和运动模式,通过保留运动生成和概念组合能力来生成带…- 0
- 0
-
Step1X-3D – 阶跃星辰联合LightIllusions开源的3D资产生成框架
Step1X-3D项目简介 Step1X-3D 是StepFun联合LightIllusions推出的高保真、可控的 3D 资产生成框架。基于严格的数据整理流程,从超过 500 万个 3D 资产中筛选出 200 万个高质量数据,创建标准化的几何和纹理属性数据集。Step1X-3D 支持多模态条件输入,如文本和语义标签,基于低秩自适应(LoRA)微调实现灵活的几何控制。Step1X-3D 推动了 3…- 0
- 0
-
DreaMoving – 阿里开源的基于扩散模型的人类视频生成框架
DreaMoving项目简介 DreaMoving是一个基于扩散模型的人类视频生成框架,由阿里巴巴集团的研究团队开发。DreaMoving通过视频控制网络和内容引导器实现对人物动作和外观的精确控制,使得用户可以通过简单的文本描述或图像提示来生成个性化的视频内容。该框架的目标是生成高质量的定制化人类视频,特别是能够根据给定的目标身份和姿势序列生成目标身份移动或跳舞的视频内容。 DreaMoving的…- 0
- 0
-
AnimeGamer – 腾讯联合香港城市大学推出的动漫生活模拟系统
AnimeGamer项目简介 AnimeGamer 是腾讯 PCG 和香港城市大学共同推出的无限动漫生活模拟系统。基于多模态大语言模型(MLLM),支持玩家基于开放式的语言指令,用动漫角色的身份沉浸于动态游戏世界中。玩家能操控如《悬崖上的金鱼姬》中的宗介等角色,与游戏世界互动。游戏支持生成具有上下文一致性的动态动画镜头(视频)及角色状态(如体力、社交和娱乐值)的更新。相比传统方法,AnimeGam…- 0
- 0
-
FaceShot – 同济大学联合上海 AI Lab等推出的肖像动画生成框架
FaceShot项目简介 FaceShot是同济大学、上海 AI Lab和南京理工大学推出的新型无需训练的肖像动画生成框架。用外观引导的地标匹配模块和基于坐标的地标重定位模块,为各种角色生成精确且鲁棒的地标序列,基于潜在扩散模型的语义对应关系,跨越广泛的角色类型生成面部动作序列。将地标序列输入预训练的地标驱动动画模型生成动画视频。FaceShot突破对现实肖像地标的限制,适用于任何风格化的角色和驱…- 0
- 0
-
ReCamMaster – 浙大联合快手等推出的视频重渲染框架
ReCamMaster项目简介 ReCamMaster 是浙江大学、快手科技等联合推出的视频重渲染框架,能根据新的相机轨迹重新生成视频内容。通过预训练模型和帧维度条件机制,结合多相机同步数据集和相机姿态条件,实现视频视角、运动轨迹的灵活调整。用户可上传视频并指定轨迹,系统会生成新的视角视频,广泛应用于视频创作、后期制作、教育等领域,为视频内容带来全新视角和动态效果,提升创作自由度和质量。 ReCa…- 0
- 0
-
ID-Animator – 腾讯等推出的个性化人物视频生成框架
ID-Animator项目简介 ID-Animator是由来自腾讯光子工作室、中科大和中科院合肥物质科学研究院的研究人员推出的一种零样本(zero-shot)人类视频生成技术,能够根据单张参考面部图像生成个性化视频,同时保留图像中的人物身份特征,并能够根据文本提示调整视频内容。该框架通过结合预训练的文本到视频扩散模型和轻量级面部适配器,实现了高效的视频生成,且无需针对特定身份进行额外的训练。ID-…- 0
- 0
-
VidSketch – 浙江大学推出的视频动画生成框架
VidSketch项目简介 VidSketch 是浙江大学 CAD&CG 国家重点实验室和软件学院推出的创新视频生成框架,根据手绘草图和简单文本提示生成高质量的视频动画。VidSketch基于“层级草图控制策略”动态调整草图的引导强度,适应不同绘画技能的用户,借助“时空注意力机制”增强视频的时空一致性,解决帧间连贯性问题。VidSketch 降低了视频创作的技术门槛,让普通用户轻松实现高质…- 0
- 0
-
CogVideoX v1.5 – 智谱最新开源的AI视频生成模型
CogVideoX v1.5项目简介 CogVideoX v1.5是智谱最新开源的AI视频生成模型。模型包含CogVideoX v1.5-5B和CogVideoX v1.5-5B-I2V两个版本,5B 系列模型支持生成5至10秒、768P分辨率、16帧的视频,I2V模型能处理任意尺寸比例的图像到视频的转换,结合即将开放内测的CogSound音效模型能自动生成匹配的AI音效。模型在图生视频质量、美学…- 0
- 0
-
RegionDrag – 港大和牛津联合开发的基于区域的图像编辑技术
RegionDrag项目简介 RegionDrag是由香港大学和牛津大学联合开发的一种基于区域的图像编辑技术。基于扩散模型,让用户定义手柄区域和目标区域来表达编辑意图,实现快速且精确的图像编辑。比传统的点拖动编辑更快,减少计算时间,提高编辑的直观性和准确性。RegionDrag一次性迭代完成编辑,提升编辑效率,采用注意力交换技术增强稳定性,使图像编辑在保持高质量输出的同时,速度比现有技术快100倍…- 1
- 0
-
CogSound – 智谱AI最新推出的音效模型
CogSound项目简介 CogSound是智谱AI最新推出的音效模型,能为无声视频增添动人的音效。 基于GLM-4V的视频理解能力,CogSound能精准识别理解视频背后的语义和情感,为无声视频添加与之相匹配的音频内容,可以生成更复杂的音效,如爆炸、水流、乐器、动物叫声、交通工具声等。模型的推出标志着智谱AI在视频生成领域的技术进步,特别是在提升视频的多模态体验方面,增强视频的沉浸感和真实感。 …- 1
- 0
-
VersaGen – 实现文本到图像合成中视觉控制能力的生成式 AI 代理
VersaGen项目简介 VersaGen是文本到图像合成的生成式AI代理,能实现灵活的视觉控制能力。VersaGen能处理包括单一视觉主体、多个视觉主体、场景背景,这些元素的任意组合在内的多种视觉控制类型。基于在已有的文本主导的扩散模型上训练适配器,VersaGen成功地将视觉信息融入图像生成过程中。VersaGen引入优化策略,提升生成图像的质量和用户的体验。VersaGen的灵活性和包容性让…- 1
- 0
-
Steamer-I2V – 百度推出的图像到视频生成模型
Steamer-I2V项目简介 Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型,通过将静态图像转化为动态视频,展现出卓越的视觉生成能力。模型在 VBench 国际权威的视频生成评测中荣获榜首,基于精准的视觉控制、高清画质以及对中文语义的深刻理解脱颖而出。 Steamer-I2V 细粒度的视频结构化描述语言,能实现像素级的画面控制与电影级的构图效果,支持多模态输入,包括…- 1
- 0
-
DiffBrush – 北邮联合清华等机构推出的图像生成与编辑框架
DiffBrush项目简介 DiffBrush是北京邮电大学、清华大学、中国电信人工智能研究所和西北工业大学推出的,无需训练的图像生成与编辑框架,支持用户基于手绘草图直观地控制图像生成。DiffBrush用预训练的文本到图像(T2I)模型,基于颜色引导、实例与语义引导及潜在空间再生等技术,精准控制生成图像的颜色、语义和实例分布。DiffBrush兼容多种T2I模型(如Stable Diffusio…- 0
- 0
-
Step1X-Edit – 阶跃星辰开源的通用图像编辑框架
Step1X-Edit项目简介 Step1X-Edit 是阶跃星辰团队推出的通用图像编辑框架,能缩小开源图像编辑模型与闭源模型(如 GPT-4o 和 Gemini2 Flash)之间的性能差距。Step1X-Edit结合多模态大语言模型(MLLM)和扩散模型,基于处理参考图像和用户的编辑指令,提取潜在嵌入生成目标图像。为训练模型,研究者构建大规模高质量的数据生成管道,生成超过 100 万对图像和指…- 0
- 0
-
英伟达与MIT合作推出 Fast-dLLM 框架,AI 推理速度提升 27.6 倍
近日,科技巨头英伟达联合麻省理工学院(MIT)与香港大学,发布了名为 Fast-dLLM 的新框架。这一创新的框架旨在显著提高扩散模型(Diffusion-based LLMs)的推理速度,最高可达27.6倍,为人工智能的应用提供了更为强大的技术支持。 扩散模型的挑战与机遇 扩散模型被视为传统自回归模型(Autoregressive Models)的有力竞争者。它采用双向注意力机制(Bidire…- 1
- 0
-
VISION XL – AI视频修复处理工具,修复缺失、支持四倍超分辨率
VISION XL项目简介 VISION XL是高效的视频修复和超分辨率工具,基于潜在扩散模型技术,专注于解决高清视频的逆问题。工具能修复视频缺失部分、去除模糊,提升视频清晰度,最高可达四倍超分辨率。VISION XL基于减少对额外预训练模块的依赖,优化处理效率,仅需13GB显存能在2.5分钟内处理25帧视频,非常适合需要快速处理视频主要应用。 VISION XL优势介绍 视频去模糊(Deblur…- 1
- 0
-
AniTalker – 上海交大开源的对口型说话视频生成框架
AniTalker项目简介 AniTalker是由来自上海交大X-LANCE实验室和思必驰AISpeech的研究人员推出的AI对口型说话视频生成框架,能够将单张静态人像和输入的音频转换成栩栩如生的动画对话视频。该框架通过自监督学习策略捕捉面部的复杂动态,包括微妙的表情和头部动作。AniTalker利用通用运动表示和身份解耦技术,减少了对标记数据的依赖,同时结合扩散模型和方差适配器,生成多样化和可控…- 2
- 0
-
xAR – 字节联合霍普金斯大学推出的自回归视觉生成框架
xAR项目简介 xAR 是字节跳动和约翰·霍普金斯大学联合提出的新型自回归视觉生成框架。框架通过“下一个X预测”(Next-X Prediction)和“噪声上下文学习”(Noisy Context Learning)技术,解决了传统自回归模型在视觉生成中的信息密度不足和累积误差问题。 xAR优势介绍 下一个X预测(Next-X Prediction):扩展了传统的“下一个标记预测”,支持模型预测…- 2
- 0