-
ArtCrafter – 清华联合鹏城实验室和联想共同推出的文本到图像风格迁移框架
ArtCrafter项目简介 ArtCrafter是清华大学、鹏城实验室和联想研究院共同推出的文本到图像风格迁移框架,基于扩散模型,解决传统方法在风格表达、内容一致性和输出多样性方面的局限。ArtCrafter基于嵌入重构架构实现,包含三个关键组件:基于注意力的风格提取模块,用多层架构和感知器注意力机制从参考图像中提取细腻的风格特征;文本-图像对齐增强模块,基于注意力交互将图像和文本嵌入映射到共享…- 57
-
真人版“香香”!借助AI绘画将《新世纪福音战士》明日香角色变为3D真人的思路分享
真人版香香!《新世纪福音战士(EVA)》女主角之一的“明日香”Cosplay,但是AI Coser!! 《新世纪福音战士》这部日本国民级动画,目前还没有启动动漫真人化制作。伴随AI浪潮,二次元迈向三次元变得无限可能。 明日香属于傲娇又可爱的女孩子,德日混血,一头金发尤为显眼??。只不过,明日香的瞳色是蓝色?,AI Coser少了一丝金发碧眼的异域感。 相对来说,我还是更喜欢明日香的动画形象,你们呢…- 0
-
Emotion-LLaMA – 多模态情绪识别与推理模型,融合音频、视觉和文本输入
Emotion-LLaMA项目简介 Emotion-LLaMA是多模态情绪识别与推理模型,融合了音频、视觉和文本输入,通过特定情绪编码器整合信息。模型基于修改版LLaMA,经指令调整以提升情感识别能力。研究者构建了MERR数据集助力训练与评估,使模型能从多场景学习并应用于现实。Emotion-LLaMA在多个数据集和挑战赛中表现优异,如在MER2024挑战赛MER-NOISE赛道中以84.52%的…- 1
-
GLM-4V-Plus – 智谱AI最新推出的多模态AI模型,专注图像和视频理解
GLM-4V-Plus项目简介 GLM-4V-Plus是智谱AI最新推出的多模态AI模型,专注于图像和视频理解。GLM-4V-Plus不仅能够精确分析静态图像,还具备动态视频内容的时间感知和理解能力,能捕捉视频中的关键事件和动作。作为国内首个提供视频理解API的模型,GLM-4V-Plus已集成在“智谱清言APP”中,并上线“视频通话”功能。同时,GLM-4V-Plus在智谱AI开放平台 BigM…- 3
-
HouseCrafter – 东北大学和 Stability AI推出2D转换3D室内场景的技术
HouseCrafter项目简介 HouseCrafter 是由东北大学和 Stability AI 推出的先进技术,将二维平面图自动转换成三维室内场景。基于一个网络规模图像训练的2D扩散模型,生成一致的多视图彩色(RGB)和深度(D)图像。图像自回归地批量生成,确保全局一致性,重建出高质量的3D场景。简化复杂虚拟环境的创建过程,基于用户交互功能,支持用户在平面图上移动家具轻松编辑场景布局,实时更…- 1
-
Wonder Animation – 视频序列转换成3D动画场景的AI解决方案
Wonder Animation项目简介 Wonder Animation 是 Autodesk 旗下 Wonder Dynamics 推出的创新 AI 技术,Wonder Animation测试版现已上线Wonder Studio。Wonder Animation基于 Video to 3D Scene 技术将视频序列转换成 3D 动画场景,加速动画电影制作。Wonder Animation能处…- 4
-
GLM-Z1-Air – 智谱推出的深度思考模型
GLM-Z1-Air项目简介 GLM-Z1-Air 是智谱公司推出的基于 GLM-4-Air-0414 的深度思考模型。GLM-Z1-Air在预训练阶段引入更多推理类数据,在对齐阶段深度优化通用能力,展现出强大的数理推理性能,与 DeepSeek-R1 等模型媲美。GLM-Z1-Air 在推理速度上相比 R1 提升 8 倍,成本降低至 1/30,支持在消费级显卡上运行,具有高性能与高性价比。GLM…- 1
-
GPT-4o或将被超越Claude 3.5深夜发布,附最新体验分享
OpenAI的最大对手,Anthropic,没有任何预兆的,官宣了自己的新模型。 Claude3.5Sonnet。 Claude3家族原本有三个参数量级的模型,分别是: Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku。 可以理解成Opus(大杯)、Sonnet(中杯)、Haiku(小杯)。 而这一次,是把中等参数模型Sonnet的3.5升级版放了出来。 在…- 4