-
FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架
FantasyTalking项目简介 FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型,采用双阶段视听对齐策略,第一阶段通过片段级训练方案建立连贯的全局运动,第二阶段通过唇部追踪掩码在帧级别细化唇部运动,确保与音频信号精确同步。框架引入面部专注的交叉注意力模块来保持面部一致性,通过…- 0
-
auto-video-generator – AI自动解说视频生成器
auto-video-generator项目简介 auto-video-generator是AI自动解说视频生成器,能实现一键生成解说视频。用户只需输入主题,系统便自动撰写脚本、合成语音、生成图片并合成视频,极大提升内容创作效率。适用于自媒体、营销、教育等多个场景,帮助创作者快速制作高质量视频。 auto-video-generator的功能特色 自动生成解说脚本:输入主题后,AI自动撰写清晰、完…- 0
-
LHM – 阿里通义开源的单图生成可动画3D人体模型
LHM项目简介 LHM(Large Animatable Human Reconstruction Model)是阿里巴巴通义实验室推出的从单张图像重建可动画化3D人体模型。基于多模态Transformer架构,融合3D几何特征和2D图像特征,用注意力机制保留服装几何与纹理细节,推出头部特征金字塔编码方案增强面部细节恢复能力。LHM用3D高斯点云(Gaussian Splatting)形式表示重建…- 3
-
Mobius – 重庆邮电联合美团等推出的无缝循环视频生成技术
Mobius项目简介 Mobius 是先进的无缝循环视频生成技术,能通过人工智能算法从文本描述生成无限循环的视频内容。核心在于强大的AI模型,能自动识别视频中的关键元素并生成平滑过渡的循环片段,无需用户进行复杂的编辑。简化了视频创作过程,适合各种技能水平的创作者,广泛应用于广告、社交媒体、数字标牌等领域。 Mobius优势介绍 无缝循环播放:视频能实现无限循环,无明显过渡或中断。 文本驱动生成:用…- 2
-
Anus – Manus 生成的开源 AI 智能体项目,复刻 Manus 部分功能
Anus项目简介 Anus(Autonomous Networked Utility System)是 Manus 生成的开源自主智能体项目,复刻 Manus 的部分功能。Anus支持自然语言指令执行、多代理协作、网络交互、文档处理、代码执行和多模态输入处理等功能。Anus用混合架构,结合单代理的简单性和多代理的强大能力,支持OpenAI、开源模型及本地部署,提供丰富的工具生态系统和灵活的模型集成…- 0
-
SnapGen – Snap联合港科大等机构推出的移动端文生图模型
SnapGen项目简介 SnapGen是Snap Inc、香港科技大学、墨尔本大学等机构联合推出的文本到图像(T2I)扩散模型,能在移动设备上快速生成高分辨率(1024×1024像素)的图像,且只需1.4秒。模型用379M参数实现这一性能,显著减少模型大小和计算需求,同时在GenEval指标上达到0.66的高分,超越许多参数量更大的SDXL和IF-XL模型。SnapGen基于优化网络架构、跨架构知…- 3
-
LongWriter – 清华联合智谱AI推出的长文本生成模型
LongWriter项目简介 LongWriter 是清华大学联合智谱AI推出的长文本生成模型,能生成超10,000字的连贯文本,项目已开源。通过分析现有大型语言模型的输出限制,创建了”LongWriter-6k”数据集,成功扩展了AI模型的输出能力。LongWriter 还采用了直接偏好优化(DPO)技术来提高模型的输出质量和遵循指令中长度限制的能力。 LongWriter优势介绍 超长文本生成…- 2
-
UltraMem – 字节豆包大模型团队推出的全新超稀疏模型架构
UltraMem项目简介 UltraMem 是字节跳动豆包大模型团队提出的全新超稀疏模型架构,解决传统 MoE 架构在推理时的高额访存问题。架构通过优化内存访问和计算效率,显著降低推理成本,推理速度较 MoE 提升了2-6倍,成本最高可降低83%。UltraMem 的核心技术包括:多层结构改进,将大型内存层拆分为多个小内存层,分布在 Transformer 层中,增加 skip-layer 操作,…- 1