-
深度解析ControlNet模型的工作原理与应用场景(附案例解析)
一、川言川语 大家好,我是言川。本期文章是2024年的第一篇文章,也是2023年农历的最后一篇文章。截至这篇文章完成时,距离春节也只有最后一周的时间了,我无法单独向支持我的朋友们传达祝福之意。所以在本篇文章的开头,向大家说一些祝福之词: 2024年,祝大家在新的一年里事业有成,大展宏图,前程似锦。同时在事业之外,祝大家健康、快乐以及幸福。 2024年,辰龙年,祝大家龙飞凤舞,事业腾飞;祝大家金龙献…- 2
- 0
-
sCM – OpenAI推出连续时间一致性模型,两步采样生成高质量图像
sCM项目简介 sCM是OpenAI推出的连续时间一致性模型,基于扩散模型原理进行改进。sCM简化理论框架和优化采样过程,实现图像生成速度的显著提升。sCM模型仅需两步采样能生成高质量图像,速度比传统扩散模型快50倍。基于连续时间框架,避免离散化误差,用一系列关键改进如改进的时间条件策略和自适应双归一化,提高模型训练的稳定性和生成质量。sCM的发布预示着实时、高质量生成式AI在多个领域的应用前景,…- 0
- 0
-
Adobe Firefly – Adobe推出的系列创意生成式AI模型
Adobe Firefly项目简介 Adobe Firefly 是 Adobe 推出的一系列创意生成式 AI 模型,旨在帮助用户扩展其天生的创造力。这些模型集成在 Adobe 的旗舰应用程序和 Adobe Stock 中,支持的功能包括图像、矢量图形和设计模型,以及最新的视频模型 。Firefly 通过简单的文字描述或其他输入,能够快速生成视频、文档、数字体验以及丰富的图像和艺术作品 。 Adob…- 0
- 0
-
Project Turntable – Adobe推出可旋转操作2D矢量图像的AI工具
Project Turntable项目简介 Project Turntable是Adobe在2024年MAX大会上推出的一款创新AI工具。工具能让用户像操作3D对象一样旋转2D矢量图像,即时生成图像所需的隐藏部分。用AI模型填充旋转过程中暴露的空白区域,简化2D图像编辑的工作流程,为设计师提操作便捷性。Project Turntable减少设计过程中的时间消耗,为设计师提供更灵活的创作体验。Pro…- 2
- 0
-
百度发布“绘想”平台与MuseSteamer:AI生成视频,一张图即可搞定专业级大片!
在今日举行的百度AIDAY科技开放日上,百度商业研发团队正式发布了其自主研发的视频生成模型MuseSteamer及其配套的视频产品平台**“绘想”**。这一创新旨在通过“生成式AI+多模态技术”打造全面的视频生成解决方案,以满足搜索、广告、推荐等场景对原生化内容生产的强劲需求。 MuseSteamer视频生成模型系列丰富,目前包含Turbo、Lite、Pro以及全系列有声版本。其中,Turbo版…- 4
- 0
-
NeMo – 英伟达推出的用于构建、定制和部署生成式AI模型
NeMo项目简介 NeMo 是由 NVIDIA 提供的端到端云原生框架,用于构建、定制和部署生成式 AI 模型。支持大型语言模型(LLMs)、多模态模型、语音识别和文本转语音(TTS)等应用。NeMo 的设计理念强调模块化和灵活性,使研究人员和企业用户能根据自己的需求选择和定制相应的AI模块。基于深度学习框架,基于优化的算法和技术,提供多模态融合能力,适用于金融、医疗、教育等多个行业,支持分布式训…- 0
- 0
-
Muse – 微软研究院推出的生成式AI模型
Muse项目简介 Muse是微软推出的首个用在游戏创意生成的生成式AI模型,基于“World and Human Action Model”(WHAM)。Muse能生成游戏视觉效果和控制器操作,基于学习人类玩家的游戏数据(如图像和操作指令)模拟真实的游戏玩法序列。核心能力包括生成连贯一致的游戏画面、展现多样化的游戏路径以及将用户修改融入生成内容中。Muse基于WHAM Demonstrator提供…- 1
- 0
-
英国电影协会警告:AI 技术对影视行业构成直接威胁
根据英国电影协会(BFI)的一份新报告,人工智能公司正在利用超过130,000个影视剧本训练其模型,严重侵犯了版权材料,这对英国屏幕行业的未来构成了 “直接威胁”。该报告详细分析了 AI 技术给电影、电视、视频游戏和特效行业带来的好处与挑战。 报告指出,当前价值1250亿英镑的英国创意产业面临的主要问题是,人工智能公司在未获得权利人支付或许可的情况下,擅自使用知识产权来训练生成式 AI 模型。这使…- 0
- 0
-
Stability AI开源Stable Diffusion 3 Medium文生图模型
6月12日晚间消息,人工智能初创公司Stability AI宣布正式开源发布其最新的文本到图像生成模型——Stable Diffusion 3 Medium(SD3 Medium)。Stable Diffusion 3 Medium 包含 20 亿个参数,是 Stability AI 迄今为止最先进的文本到图像开放模型,更小的 VRAM 占用空间旨在使其更适合在消费级 GPU 以及企业级 GPU …- 2
- 0
-
红帽联手谷歌、NVIDIA启动llm-d开源项目,破解大规模AI推理成本与延迟双重难题
全球开源解决方案领导者红帽公司近日宣布启动革命性开源项目llm-d,专门应对生成式AI大规模推理的迫切需求。该项目汇聚了CoreWeave、Google Cloud、IBM Research和NVIDIA等行业巨头作为创始贡献者,旨在通过突破性技术让大语言模型推理云满足最严苛的生产服务级目标。 推理时代来临,挑战日益严峻 根据Gartner最新数据预测,"到2028年,随着市场成熟,80…- 3
- 0
-
Cosmos – 英伟达推出的生成式世界基础模型平台
Cosmos项目简介 Cosmos是英伟达推出的生成式世界基础模型平台,加速物理人工智能(AI)系统的发展,特别是在自动驾驶和机器人领域。Cosmos能接受文本、图像或视频的提示,生成高度仿真的虚拟世界状态,为自动驾驶和机器人应用提供独特的视频输出。平台集成了生成式世界基础模型、高级标记器和加速视频处理管道,帮助开发者生成大量基于物理的合成数据,减少对真实世界数据的依赖。Cosmos还提供了安全防…- 2
- 0
-
HK-O1aw – HKGAI团队联合北大团队推出的慢思考范式法律推理大模型
HK-O1aw项目简介 HK-O1aw是香港生成式AI研发中心(HKGAI)旗下AI for Reasoning团队(HKAIR)与北京大学对齐团队(PKU-Alignment Team)合作推出的全球首个慢思考范式法律推理大模型。HK-O1aw在合同法、消费者权益保护法等多个法律领域表现出色,能深入分析复杂法律文本和案例,提供逻辑严密的法律意见。模型采用O1风格数据集和训练,侧重慢思考和链式推理…- 5
- 0
-
Cerebras 推理 API 全面开放,开发者每日获百万免费 Token
2025年6月2日,人工智能芯片公司 Cerebras Systems 宣布,其推理 API 现已对所有开发者全面开放,取消了此前的等待名单限制。这一举措标志着 Cerebras 在加速生成式 AI 应用开发方面迈出了重要一步,为全球开发者提供高效、快速的 AI 推理服务。 据 Cerebras 官方声明,开发者每日可免费获得100万个 Token 的使用额度。这一免费配额为开发者提供了充足的资源…- 3
- 0
-
Epic 创新!《堡垒之夜》引入生成式 AI,轻松定制智能 NPC
在最近的 “State of Unreal” 主题发布会上,Epic Games 首次展示了其最新技术,允许《堡垒之夜》的创作者使用生成式 AI 工具定制个性化的非玩家角色(NPC)。这一功能的亮点在于,只需大约20行提示文本,开发者就能创建出能自由互动的 NPC,赋予他们独特的性格、语音和语气。 根据外媒 Engadget 的报道,演示中的 NPC 被命名为 “Buttons 先生”,其唯一的任…- 1
- 0
-
VersaGen – 实现文本到图像合成中视觉控制能力的生成式 AI 代理
VersaGen项目简介 VersaGen是文本到图像合成的生成式AI代理,能实现灵活的视觉控制能力。VersaGen能处理包括单一视觉主体、多个视觉主体、场景背景,这些元素的任意组合在内的多种视觉控制类型。基于在已有的文本主导的扩散模型上训练适配器,VersaGen成功地将视觉信息融入图像生成过程中。VersaGen引入优化策略,提升生成图像的质量和用户的体验。VersaGen的灵活性和包容性让…- 2
- 0
-
Wonder Animation – 视频序列转换成3D动画场景的AI解决方案
Wonder Animation项目简介 Wonder Animation 是 Autodesk 旗下 Wonder Dynamics 推出的创新 AI 技术,Wonder Animation测试版现已上线Wonder Studio。Wonder Animation基于 Video to 3D Scene 技术将视频序列转换成 3D 动画场景,加速动画电影制作。Wonder Animation能处…- 4
- 0