-
MMaDA – 字节联合普林斯顿大学等推出的多模态扩散模型
MMaDA项目简介 MMaDA(Multimodal Large Diffusion Language Models)是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型,支持跨文本推理、多模态理解和文本到图像生成等多个领域实现卓越性能。模型用统一的扩散架构,具备模态不可知的设计,消除对特定模态组件的需求,引入混合长链推理(CoT)微调策略,统一跨模态的CoT格式,推出UniGRPO,…- 8
-
7000字超全拆解Sora提示词秘籍解析及竞品效果对比测评
2024年2月16日凌晨,OpenAI 正式发布了文本到视频生成模型Sora,直接生成60s视频,多角色多镜头切换的视频,还上了央视新闻。 目前 Sora 并未开放,只向少数导演艺术家开放邀请码。 至此,好莱坞的时代结束了,人人可以做视频电影的时代到来啦! 今天我们就 Sora 生成视频来拆解提示词秘籍公式,竞品视频生成效果对比,解析 Sora 优势劣势和 Sora 模型原理。 一、AIGC视频模…- 7
-
字节跳动发布豆包视频生成模型,这效果让我分不清AI虚拟与现实的边界
以下文章转载自丨IT之家 9 月 24 日,火山引擎 AI 创新巡展在深圳举办,带来了豆包大模型的最新进展——豆包大模型家族迎来了新成员,这是针对 AI 视频创作。 具体来说,火山引擎全新推出了豆包·视频生成模型,以及豆包·音乐模型、同声传译模型,同时还升级了通用语言模型、文生图模型、语音模型,不断增强各类模态以及规模化的调用量,让豆包大模型&l…- 7
-
Imagen 4 – 谷歌推出的最新图像生成AI模型
Imagen 4项目简介 Imagen 4是谷歌发布的最新图像生成AI模型。支持高达2K分辨率的图像生成,细节呈现逼真,可清晰呈现复杂织物纹理、水滴折射及动物毛发质感等。在文本渲染方面,Imagen 4也有重大突破,能生成清晰准确的文字,适合广告、漫画或邀请函等设计场景。支持多种艺术风格,从超现实到抽象、从插图到摄影,极大地扩展了创作者的表达空间。 Imagen 4优势介绍 高分辨率与细节呈现:支…- 4
-
Playwright MCP – 微软推出的AI浏览器自动化工具
Playwright MCP项目简介 Playwright MCP 是微软推出的轻量级浏览器自动化工具,基于 Model Context Protocol (MCP) 协议。工具基于 Playwright 的可访问性树实现与网页的交互,无需依赖视觉模型或截图,适合与大语言模型(LLM)结合使用。Playwright MCP支持多种浏览器(如 Chrome、Firefox、WebKit),提供丰富的…- 4
-
OptoChat AI – 南智光电联合南大推出的光子芯片领域专用大模型
OptoChat AI项目简介 OptoChat AI是南智光电与南京大学共同推出的国内首款光子专用大模型。模型聚焦光子领域全产业链,集成超过30万条光子芯片相关专利、文献和行业数据资源,具备强大的数据分析与智能算法能力。模型显著提升光电芯片的研发效率与产业转化速度,将传统数周的设计验证周期压缩至分钟级。模型助力光子芯片产业从传统试错式研发向智能化转变,推动全球光子产业生态的协同创新与可持续发展。…- 4
-
Seed1.5-Embedding – 字节跳动 Seed 团队推出的向量模型
Seed1.5-Embedding项目简介 Seed1.5-Embedding 是字节跳动 Seed 团队最新发布的向量模型,基于 Seed1.5 (Doubao-1.5-pro) 进一步训练。模型在权威测评榜单 MTEB 上达到了中英文 SOTA 效果,在推理密集型检索任务的 BRIGHT 榜单上也取得了优异成绩。 模型采用 Siamese 双塔结构,依托 Seed1.5 预训练 LLM,通过两…- 2
-
Pixel3DMM – 慕尼黑联合伦敦大学等推出的3D人脸重建框架
Pixel3DMM项目简介 Pixel3DMM是慕尼黑工业大学、伦敦大学学院和Synthesia联合推出的单图像3D人脸重建框架。框架基于DINO基础模型,引入专门的预测头,从单张RGB图像中准确重建出3D人脸的几何结构。Pixel3DMM在多个基准测试中表现出色,在处理复杂面部表情和姿态方面,显著优于现有方法。Pixel3DMM引入新的基准测试,涵盖多样的面部表情、视角和种族,为该领域的研究提供…- 2