-
MoviiGen 1.1 – AI视频生成模型,支持生成电影级画质
MoviiGen 1.1项目简介 MoviiGen 1.1 是ZulutionAI 推出的专注于生成电影级画质视频的AI模型。模型基于 Wan2.1 微调而成,经过专业电影制作人和AIGC创作者在60个美学维度上的评估,表现出色。模型在氛围营造、镜头运动和物体细节保留方面优于竞争对手,支持720P和1080P分辨率,生成的视频清晰度高、连贯性强,适合高保真场景和专业电影应用。模型提供提示扩展功能,…- 1
-
FastVLM – 苹果推出的高效视觉语言模型
FastVLM项目简介 FastVLM是苹果推出的高效的视觉语言模型(VLM),能提升高分辨率图像处理的效率和性能。模型引入FastViTHD新型混合视觉编码器,有效减少视觉token数量,显著降低编码时间。FastVLM在保持与现有VLM相似性能的同时,大幅提升处理速度,例如在LLaVA-1.5设置中,相比其他模型,将首次生成token的时间(TTFT)缩短3.2倍。FastVLM在多种VLM基…- 1
-
7000字超全拆解Sora提示词秘籍解析及竞品效果对比测评
2024年2月16日凌晨,OpenAI 正式发布了文本到视频生成模型Sora,直接生成60s视频,多角色多镜头切换的视频,还上了央视新闻。 目前 Sora 并未开放,只向少数导演艺术家开放邀请码。 至此,好莱坞的时代结束了,人人可以做视频电影的时代到来啦! 今天我们就 Sora 生成视频来拆解提示词秘籍公式,竞品视频生成效果对比,解析 Sora 优势劣势和 Sora 模型原理。 一、AIGC视频模…- 7
-
Pixel3DMM – 慕尼黑联合伦敦大学等推出的3D人脸重建框架
Pixel3DMM项目简介 Pixel3DMM是慕尼黑工业大学、伦敦大学学院和Synthesia联合推出的单图像3D人脸重建框架。框架基于DINO基础模型,引入专门的预测头,从单张RGB图像中准确重建出3D人脸的几何结构。Pixel3DMM在多个基准测试中表现出色,在处理复杂面部表情和姿态方面,显著优于现有方法。Pixel3DMM引入新的基准测试,涵盖多样的面部表情、视角和种族,为该领域的研究提供…- 2
-
Audio-SDS – NVIDIA推出的扩展文本条件音频扩散模型
Audio-SDS项目简介 Audio-SDS是NVIDIA AI研究团队推出的创新技术,将Score Distillation Sampling(SDS)技术扩展至文本条件音频扩散模型,为音频处理领域带来了重大突破。无需重新训练模型,可将任意预训练音频扩散模型转化为多功能工具,广泛应用于音效生成、音源分离、FM合成及语音增强等任务。Audio-SDS通过文本提示引导音频生成,支持高度定制化,满足…- 1
-
Imagen 4 – 谷歌推出的最新图像生成AI模型
Imagen 4项目简介 Imagen 4是谷歌发布的最新图像生成AI模型。支持高达2K分辨率的图像生成,细节呈现逼真,可清晰呈现复杂织物纹理、水滴折射及动物毛发质感等。在文本渲染方面,Imagen 4也有重大突破,能生成清晰准确的文字,适合广告、漫画或邀请函等设计场景。支持多种艺术风格,从超现实到抽象、从插图到摄影,极大地扩展了创作者的表达空间。 Imagen 4优势介绍 高分辨率与细节呈现:支…- 4
-
ChatGPT、阿里通义等AI机器人参加今年高考出分:干翻90%考生,有一科全员不及格
6月19日,上海人工智能实验室和司南评测体系发布了国内首个针对AI大模型参与2024高考「语数英」三科目的全卷解题能力测试的结果。 本次测试,选取了6款开源大模型以及公认的「地表最强」GPT-4o进行,考卷选择了「全国新课标I卷」。参与评测的所有开源模型,开源时间均早于今年的高考,成绩均由拥有高考评卷经验的老师进行人工阅卷评判。 让我们先看下都有哪些选手: GPT-4o:OpenAI在5月最新发布…- 2
-
高考摸底大模型测评丨GPT-4o全面领先,国产大模型豆包文科成绩优势明显
什么?好多大模型的文科成绩超一本线,还是最卷的河南省??? 没错,最近就有这么一项大模型“高考大摸底”评测走红了。 河南高考文科今年的一本线是521分,根据这项评测,共计四个大模型大于或等于这个分数,其中头两名最值得关注: GPT-4o:562分 字节豆包:542.5分 …… 从结果中来看,GPT-4o的表现依旧是处于领先状态,而在国产大模型这边…- 1