-
MMaDA – 字节联合普林斯顿大学等推出的多模态扩散模型
MMaDA项目简介 MMaDA(Multimodal Large Diffusion Language Models)是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型,支持跨文本推理、多模态理解和文本到图像生成等多个领域实现卓越性能。模型用统一的扩散架构,具备模态不可知的设计,消除对特定模态组件的需求,引入混合长链推理(CoT)微调策略,统一跨模态的CoT格式,推出UniGRPO,…- 11
-
7000字超全拆解Sora提示词秘籍解析及竞品效果对比测评
2024年2月16日凌晨,OpenAI 正式发布了文本到视频生成模型Sora,直接生成60s视频,多角色多镜头切换的视频,还上了央视新闻。 目前 Sora 并未开放,只向少数导演艺术家开放邀请码。 至此,好莱坞的时代结束了,人人可以做视频电影的时代到来啦! 今天我们就 Sora 生成视频来拆解提示词秘籍公式,竞品视频生成效果对比,解析 Sora 优势劣势和 Sora 模型原理。 一、AIGC视频模…- 10
-
字节跳动发布豆包视频生成模型,这效果让我分不清AI虚拟与现实的边界
以下文章转载自丨IT之家 9 月 24 日,火山引擎 AI 创新巡展在深圳举办,带来了豆包大模型的最新进展——豆包大模型家族迎来了新成员,这是针对 AI 视频创作。 具体来说,火山引擎全新推出了豆包·视频生成模型,以及豆包·音乐模型、同声传译模型,同时还升级了通用语言模型、文生图模型、语音模型,不断增强各类模态以及规模化的调用量,让豆包大模型&l…- 9
-
Playwright MCP – 微软推出的AI浏览器自动化工具
Playwright MCP项目简介 Playwright MCP 是微软推出的轻量级浏览器自动化工具,基于 Model Context Protocol (MCP) 协议。工具基于 Playwright 的可访问性树实现与网页的交互,无需依赖视觉模型或截图,适合与大语言模型(LLM)结合使用。Playwright MCP支持多种浏览器(如 Chrome、Firefox、WebKit),提供丰富的…- 5
-
OptoChat AI – 南智光电联合南大推出的光子芯片领域专用大模型
OptoChat AI项目简介 OptoChat AI是南智光电与南京大学共同推出的国内首款光子专用大模型。模型聚焦光子领域全产业链,集成超过30万条光子芯片相关专利、文献和行业数据资源,具备强大的数据分析与智能算法能力。模型显著提升光电芯片的研发效率与产业转化速度,将传统数周的设计验证周期压缩至分钟级。模型助力光子芯片产业从传统试错式研发向智能化转变,推动全球光子产业生态的协同创新与可持续发展。…- 5
-
k0-math – 月之暗面Kimi推出的数学推理模型,对标o1
k0-math项目简介 k0-math是月之暗面旗下Kimi最新发布的新一代数学推理模型。模型在多项数学基准测试中表现出色,数学能力足以与全球领先的OpenAI的o1系列模型相媲美,对标o1-mini和o1-preview两个可公开使用的模型。k0-math在中考、高考、考研以及包含入门竞赛题的MATH等四个不同级别的数学基准测试中,成绩均超越了o1-mini和o1-preview。在更具挑战性的…- 4
-
Imagen 4 – 谷歌推出的最新图像生成AI模型
Imagen 4项目简介 Imagen 4是谷歌发布的最新图像生成AI模型。支持高达2K分辨率的图像生成,细节呈现逼真,可清晰呈现复杂织物纹理、水滴折射及动物毛发质感等。在文本渲染方面,Imagen 4也有重大突破,能生成清晰准确的文字,适合广告、漫画或邀请函等设计场景。支持多种艺术风格,从超现实到抽象、从插图到摄影,极大地扩展了创作者的表达空间。 Imagen 4优势介绍 高分辨率与细节呈现:支…- 4
-
HRAvatar – 清华联合IDEA推出的单目视频生成3D头像技术
HRAvatar项目简介 HRAvatar是清华大学联合IDEA团队推出的单目视频重建技术,支持从普通单目视频中生成高质量、可重光照的3D头像。HRAvatar用可学习的形变基和线性蒙皮技术,基于精准的表情编码器减少追踪误差,提升重建质量。HRAvatar将头像外观分解为反照率、粗糙度和菲涅尔反射等属性,结合物理渲染模型,实现真实的重光照效果。HRAvatar在多个指标上优于现有方法,支持实时渲染…- 4