-
HouseCrafter – 东北大学和 Stability AI推出2D转换3D室内场景的技术
HouseCrafter项目简介 HouseCrafter 是由东北大学和 Stability AI 推出的先进技术,将二维平面图自动转换成三维室内场景。基于一个网络规模图像训练的2D扩散模型,生成一致的多视图彩色(RGB)和深度(D)图像。图像自回归地批量生成,确保全局一致性,重建出高质量的3D场景。简化复杂虚拟环境的创建过程,基于用户交互功能,支持用户在平面图上移动家具轻松编辑场景布局,实时更…- 0
-
AgentScope – 阿里开源的多智能体开发平台
AgentScope项目简介 AgentScope是阿里巴巴集团开源的多智能体开发平台,帮助开发者轻松构建和部署多智能体应用。AgentScope提供高易用性、高鲁棒性和分布式支持,内置多种模型API和本地模型部署选项,覆盖聊天、图像合成、文本嵌入等多种任务。AgentScope包含拖拽式编程界面、交互式编程助手、实时监控功能,及丰富的开发资源,支持快速二次开发。AgentScope具备容错机制、…- 0
-
OPPO ColorOS 14把大模型装进手机,我们全面实测后发现:AI帮我打工更容易了
如今大模型进手机是真的火啊,各大手机厂商发布会都标配大模型,而且直接真刀真枪来现场演示。 喏,在OPPO ODC 2023大会上现场演示可以看到,ColorOS的一键识别屏幕文本,再进行智能摘要。 这谁看了不激动啊喂。于是我们也来赶紧实测体验了一把——它不仅提供各种AI生成能力,比如写大众点评的小作文: 还能长按图像闪速抠图。 而且整个系统都变得“更懂事儿&rd…- 3
-
HiDream-I1 – 智象未来开源的AI图像生成模型
HiDream-I1项目简介 HiDream-I1是 HiDream.ai 团队推出的开源AI图像生成模型,拥有17亿参数,采用MIT许可证。模型在图像生成质量、提示词遵循能力等方面表现出色,支持逼真、卡通、艺术等多种风格,适用于艺术创作、商业设计、教育科研等多个领域。 HiDream-I1提供三个版本:完整版(HiDream-I1-Full)适合高质量生成;蒸馏版(HiDream-I1-Dev)…- 0
-
LTX Video – Lightricks推出的开源AI视频生成模型
LTX Video项目简介 LTX Video是Lightricks推出的开源AI视频生成模型,能在4秒内生成5秒的高质量视频,速度超过观看速度。基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,解决了早期视频生成模型的关键限制。LTX Video支持长视频制作,提供灵活性和控制力,适用于多种场景,包括游戏图形升级和电子商务广告变体制作。 LTX Video优势介绍 实时视频生成:LTX V…- 2
-
LLaMA-Omni – 中科院推出的低延迟高质量的语音交互模型
LLaMA-Omni项目简介 LLaMA-Omni 是中国科学院计算技术研究所和中国科学院大学研究者推出的新型模型架构,用于实现与大型语言模型(LLM)的低延迟、高质量语音交互。通过集成预训练的语音编码器、语音适配器、大型语言模型(LLM)和一个实时语音解码器,直接从语音指令中快速生成文本和语音响应,省略传统的必须先将语音转录为文本的步骤,提高了响应速度。模型基于最新的 LLaMA-3.1-8B-…- 1
-
NMT – 阿里联合 UC Berkeley 推出的多任务学习框架
NMT项目简介 NMT(No More Tuning)是UC Berkeley和阿里巴巴集团联合推出的多任务学习框架,能解决多任务学习中不同任务优先级优化的问题。NMT将多任务学习问题转化为约束优化问题,将高优先级任务的性能作为约束条件,在优化低优先级任务时保持高优先级任务的性能。NMT基于拉格朗日微分乘数法,将约束问题转化为无约束问题,并用梯度下降法求解,避免传统方法中复杂的超参数调整过程。NM…- 1
-
Kimi-Audio – Moonshot AI 开源的音频基础模型
Kimi-Audio项目简介 Kimi-Audio 是 Moonshot AI 推出的开源音频基础模型,专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频数据上进行预训练,具备强大的音频推理和语言理解能力。核心架构采用混合音频输入(连续声学 + 离散语义标记),结合基于 LLM 的设计,支持并行生成文本和音频标记,同时通过分块流式解码器实现低延迟音频生成。 Kimi-Audio优…- 0