-
DrawingSpinUp – AI驱动的2D绘画转化为3D效果的动画生成技术
DrawingSpinUp项目简介 DrawingSpinUp 是一种先进的3D动画生成技术,由香港城市大学的研究团队推出。模型将平面的角色绘画转化为具有3D效果的动态动画,同时保留原始艺术作品的风格和特征。通过深度学习方法识别和处理绘画中的轮廓线和纤细结构,解决传统2D到3D转换中的挑战。DrawingSpinUp 通过去除视角依赖的轮廓线、骨架基础的变形算法和风格恢复策略,使静态绘画自由旋转、…- 2
-
TimeSuite – 上海AI Lab推出的提升MLLMs在长视频理解处理的设计框架
TimeSuite项目简介 TimeSuite是上海AI Lab推出的新型框架,能提升多模态大型语言模型(MLLMs)在长视频理解任务中的表现。基于引入高效的长视频处理框架、高质量的视频数据集TimePro用在定位调整,及名为Temporal Grounded Caption的指令调谐任务,明确地将定位监督纳入传统问答格式中。TimeSuite能增强模型对视频内容的时间感知能力,减少幻觉风险,且在…- 0
-
混元DiT – 腾讯混元开源的文生图扩散模型Hunyuan-DiT
混元DiT项目简介 混元DiT(Hunyuan-DiT)是由腾讯混元团队开源的一款高性能的文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够根据文本提示生成多分辨率的高质量图像。混元DiT采用了创新的网络架构,结合了双语CLIP和多语言T5编码器,通过精心设计的数据管道进行训练和优化,支持多轮对话,能够根据上下文生成并完善图像。在中文到图像生成领域,混元DiT达到了开源模…- 3
-
CAVIA – 苹果、得克萨斯、谷歌联合推出的多视角视频生成框架
CAVIA项目简介 CAVIA是苹果公司、得克萨斯大学奥斯汀分校、谷歌联合推出的多视角视频生成框架,能将单一输入图像转换成多个时空一致的视频序列。框架基于引入视角集成注意力模块,增强视频的视角一致性和时间连贯性,支持用户精确控制相机运动,同时保留对象运动。CAVIA的设计灵活性使其能与多种数据源联合训练,显著提升视频的几何一致性和感知质量,在虚拟现实、增强现实和电影制作等领域具有应用潜力。 CAV…- 2
-
GarDiff – AI虚拟试穿技术,生成高保真试穿图像保留服装细节
GarDiff项目简介 GarDiff是一种创新的虚拟试穿技术,通过使用CLIP和VAE编码来提取服装的外观先验,结合服装聚焦适配器和高频细节增强算法,生成高保真且细节丰富的试穿图像。能精确地对齐服装与人体姿态,保留服装的复杂图案和纹理,提供真实的在线试穿体验。GarDiff在VITON-HD和DressCode数据集上的表现超越了现有技术,代码已开源,可供进一步研究和应用开发。 GarDiff优…- 1
-
SeedEdit – 字节豆包团队推出的AI图像编辑模型
SeedEdit项目简介 SeedEdit是字节跳动豆包大模型团队推出的通用图像编辑模型,基于简单的自然语言指令编辑图像,包括修图、换装、美化、风格转换及在指定区域添加或删除元素等。SeedEdit的核心优势为在维持原始图像和生成新图像之间找到最佳平衡,实现精准且高质量的编辑效果。作为国内首个产品化的通用图像编辑模型,SeedEdit在通用性、可控性和高质量编辑方面取得突破,支持零样本学习和多轮编…- 3
-
MetaHuman-Stream – 实时交互流式AI数字人技术
MetaHuman-Stream项目简介 MetaHuman-Stream 是一项前沿的实时交互流式AI数字人技术,集成了 ERNerf、MuseTalk、Wav2lip 等多种先进模型,支持声音克隆和深度学习算法,确保对话流畅自然。通过全身视频整合和低延迟通信技术,提供沉浸式体验,适用于在线教育、客服、游戏和新闻等多个场景,推动数字人技术在实际应用中的创新和发展。 MetaHuman-Strea…- 2
-
MiniMates – 轻量级AI数字人项目,支持语音和表情两种驱动模式
MiniMates项目简介 MiniMates是高性能的轻量级数字人驱动算法,具备语音和表情两种驱动模式,能在普通电脑上实现实时运行。基于先进的技术架构,提供极致的速度体验和个性化定制功能,支持用户根据需求定制AI伙伴。MiniMates拥有卓越的性能和灵活性,为用户提供强大的数字人驱动解决方案,适用于多种应用场景。 MiniMates优势介绍 语音驱动:支持数字人根据语音指令进行相应的动作和表情…- 1