-
Animate-X – 阿里巴巴开源的通用动画生成框架
Animate-X项目简介 Animate-X是基于LDM的通用动画框架,能将静态图像转化为动态视频,擅长处理拟人化角色。 通过引入姿势指示器,增强了对运动模式的捕捉能力,包括隐式和显式运动特征。 Animate-X适用于人类角色,能处理卡通人物或游戏角色等非人类角色动画,无需严格的图像对齐。 技术主要应用广泛,包括游戏开发、电影和视频制作、虚拟现实以及社交媒体内容创作。 Animate-X优势介…- 3
-
WorldCraft – 港科大推出的3D虚拟世界创建和定制系统
WorldCraft项目简介 WorldCraft是香港科技大学推出的基于大型语言模型(LLM)代理的3D世界创建和定制系统,用在创建和定制逼真的3D虚拟世界。基于自然语言交互,让用户能轻松生成复杂的室内外场景,对场景中的物体和布局进行精细调整。WorldCraft由三个核心模块组成:ForgeIt用在单个物体的定制,基于程序化生成实现精确的几何和纹理控制;ArrangeIt负责场景布局的生成,基…- 1
-
The Language of Motion – 斯坦福李飞飞团队推出的统一多模态语言模型
The Language of Motion项目简介 The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言模型,能整合人类动作中的言语和非言语语言。模型能处理文本、语音和动作数据,生成对应的目标模态,对于创建自然交流的虚拟角色至关重要。The Language of Motion在共同语音手势生成任务上展现卓越的性能,且相较于传统模型,训练时需要的数据量大大减少。模型…- 3
-
MoviiGen 1.1 – AI视频生成模型,支持生成电影级画质
MoviiGen 1.1项目简介 MoviiGen 1.1 是ZulutionAI 推出的专注于生成电影级画质视频的AI模型。模型基于 Wan2.1 微调而成,经过专业电影制作人和AIGC创作者在60个美学维度上的评估,表现出色。模型在氛围营造、镜头运动和物体细节保留方面优于竞争对手,支持720P和1080P分辨率,生成的视频清晰度高、连贯性强,适合高保真场景和专业电影应用。模型提供提示扩展功能,…- 3
-
Mini DALL·E 3 – 北京理工联合上海 AI Lab等高校推出的交互式文生图框架
Mini DALL·E 3项目简介 Mini DALL·E 3 是北京理工大学、上海AI Lab、清华大学和香港中文大学联合推出的交互式文本到图像(iT2I)框架。基于自然语言与用户进行多轮对话,实现高质量图像的生成、编辑和优化。用户用简单的指令逐步细化图像要求,基于大型语言模型(LLM)和预训练的文本到图像模型(如 Stable Diffusion),无需额外训练生成与文本描述高度一致的图像。系…- 2
-
Director – 构建视频智能体AI框架,用自然语言执行搜索、总结等复杂视频任务
Director项目简介 Director是构建视频智能体的框架,用户能用自然语言命令执行复杂的视频任务,如视频搜索、编辑、合成和生成,能即时流式传输结果。基于VideoDB的“视频即数据”基础设施,Director集成多个预构建的视频代理和AI API,提供基于聊天的用户界面,与视频内容的交互变得直观便捷。Director支持高度定制化,让开发者和创作者轻松添加新的代理和工具,无论是本地还是云端…- 1
-
Midjourney VS Stable Diffusion超全对比一篇让你全面了解他们的区别!
视频简介: midjourney和stableDiffusion两款AI软件的区别。midjourney收费,有不同的订阅方式和快速出图数量,而StableDiffusion是开源免费的本地程序,需要高配置电脑和显卡,但可以自己训练AI模型。StableDiffusion可以开源,用户可以自行修改程序,而midjourney是闭源的:StableDiffusion的开源性决定了它的功能和体验,同时…- 1
-
FlashMLA – DeepSeek 开源的高效 MLA 解码内核,专为Hopper 架构 GPU 设计
FlashMLA项目简介 FlashMLA 是 DeepSeek 开源的针对 NVIDIA Hopper 架构 GPU 优化的高效 MLA(Multi-Head Linear Attention)解码内核,专为处理可变长度序列设计。通过优化 KV 缓存机制和采用 BF16 数据格式,提升了内存和计算效率。在 H800 SXM5 GPU 上,FlashMLA 的内存带宽可达 3000 GB/s,计算…- 0