-
MEMO – 音频驱动的生成肖像说话视频框架,保持身份一致性和表现力
MEMO项目简介 MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大学和新加坡国立大学推出的音频驱动肖像动画框架,用在生成具有身份一致性和表现力的说话视频。MEMO围绕两个核心模块构建:记忆引导的时间模块和情感感知音频模块。记忆引导模块通存储更长期的运动信息增强身份一致性和运动平滑性,情感感知模块用多模态注意力机制提升音频与视频的…- 1
-
FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架
FantasyTalking项目简介 FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型,采用双阶段视听对齐策略,第一阶段通过片段级训练方案建立连贯的全局运动,第二阶段通过唇部追踪掩码在帧级别细化唇部运动,确保与音频信号精确同步。框架引入面部专注的交叉注意力模块来保持面部一致性,通过…- 0
-
GarDiff – AI虚拟试穿技术,生成高保真试穿图像保留服装细节
GarDiff项目简介 GarDiff是一种创新的虚拟试穿技术,通过使用CLIP和VAE编码来提取服装的外观先验,结合服装聚焦适配器和高频细节增强算法,生成高保真且细节丰富的试穿图像。能精确地对齐服装与人体姿态,保留服装的复杂图案和纹理,提供真实的在线试穿体验。GarDiff在VITON-HD和DressCode数据集上的表现超越了现有技术,代码已开源,可供进一步研究和应用开发。 GarDiff优…- 1
-
四大顶流AI绘图模型真实评测 – Midjourney、Adobe、SD、DALLE
昨天,Adobe正式发布了他们新一代的AI绘图大模型:Adobe Firefly 3. 细节更强、语义理解更强、控制性更强等等。 还发了新一版本的PS AI。 不过这些不是重点。 AdobeFirefly 3的发布,结合前段时间发布的SD3.让我有了再一次搞一个AI绘图大模型竞技场,评测一下的想法。 上一次做AI绘图的综合评测还在去年12月1号: 四大巨头的AI绘图模型综合评测 - 写在Meta …- 2
-
FireCrawl – 开源 AI 网络爬虫工具,擅长处理动态网页内容、自动爬取网站及子页面
FireCrawl项目简介 FireCrawl是开源的AI爬虫工具,专门用在Web数据提取,转换为Markdown或其他结构化数据。FireCrawl具备强大的抓取能力,支持动态网页内容处理,提供智能爬取状态管理和多样的输出格式。FireCrawl集成了LLM Extract功能,用大型语言模型快速完成数据提取,适用于大模型训练、检索增强生成(RAG)、数据驱动开发项目等多种场景。 FireCra…- 0
-
Ev-DeblurVSR – 中科大等机构推出的视频画面增强模型
Ev-DeblurVSR项目简介 Ev-DeblurVSR是中国科学技术大学、合肥综合性国家科学中心人工智能研究所和新加坡国立大学联合推出的视频画面增强模型,能从低分辨率且模糊的视频输入中恢复出高分辨率、清晰的视频。Ev-DeblurVSR引入事件相机捕获的事件信号,用高时间分辨率和丰富的运动信息增强视频的去模糊和超分辨率性能。Ev-DeblurVSR的核心包括互惠特征去模糊模块(RFD)和混合可…- 0
-
Unique3D – 清华大学团队开源的图像到3D生成模型
Unique3D项目简介 Unique3D是清华大学团队开源的一个单张图像到3D模型转换的框架,通过结合多视图扩散模型和法线扩散模型,以及一种高效的多级上采样策略,能够从单张图片中快速生成具有高保真度和丰富纹理的3D网格。Unique3D结合ISOMER算法进一步确保了生成的3D模型在几何和色彩上的一致性和准确性,仅需30秒即可完成从单视图图像到3D模型的转换,生成效果优于InstantMesh、…- 0
-
Retinex-Diffusion – AI图像照明控制框架,让图像明暗更自然、细腻
Retinex-Diffusion项目简介 Retinex-Diffusion是基于Retinex理论的AI图像照明控制技术,让图像明暗更加自然、细腻、富有层次感。Retinex-Diffusion不需要重新训练模型,通过识别图像中的光照元素并指导图像生成模型,用户可以轻松调整亮度、阴影和光照方向。Retinex-Diffusion能生成具有逼真照明效果的图像,包括投射阴影、软阴影和相互反射,且无…- 0