-
MakeAnything – 新加坡国立大学开源的一致性图片序列生成框架
MakeAnything项目简介 MakeAnything 是新加坡国立大学 Show Lab团队推出的基于扩散变换器(Diffusion Transformer)的多领域程序性序列生成框架,基于文本描述或图像输入生成高质量的分步教程。MakeAnything 基于非对称低秩适配(LoRA)技术平衡泛化能力和任务特定性能,引入ReCraft模型实现从图像到过程的逆向生成。MakeAnything构…- 2
-
Mistral Medium 3 – Mistral AI推出的多模态语言模型
Mistral Medium 3项目简介 Mistral Medium 3是Mistral AI推出的多模态语言模型。模型在性能和成本之间实现平衡,接近达到Claude Sonnet 3.7模型的性能水平,成本仅为后者的1/8(每百万Token的输入成本为0.4美元,输出成本为2美元)。模型在编程和多模态理解等专业领域表现出色,适合企业级应用,支持混合云部署、定制化后训练及与企业系统的集成。Mis…- 2
-
FastVLM – 苹果推出的高效视觉语言模型
FastVLM项目简介 FastVLM是苹果推出的高效的视觉语言模型(VLM),能提升高分辨率图像处理的效率和性能。模型引入FastViTHD新型混合视觉编码器,有效减少视觉token数量,显著降低编码时间。FastVLM在保持与现有VLM相似性能的同时,大幅提升处理速度,例如在LLaVA-1.5设置中,相比其他模型,将首次生成token的时间(TTFT)缩短3.2倍。FastVLM在多种VLM基…- 2
-
Pixel Reasoner – 滑铁卢联合港科大等高校推出的视觉语言模型
Pixel Reasoner项目简介 Pixel Reasoner是滑铁卢大学、香港科技大学、中国科学技术大学等机构推出的视觉语言模型(VLM),基于像素空间推理增强模型对视觉信息的理解和推理能力。模型能直接在视觉输入上进行操作,如放大图像区域或选择视频帧,更细致地捕捉视觉细节。Pixel Reasoner用两阶段训练方法,基于指令调优让模型熟悉视觉操作,用好奇心驱动的强化学习激励模型探索像素空间…- 2
-
Audio-SDS – NVIDIA推出的扩展文本条件音频扩散模型
Audio-SDS项目简介 Audio-SDS是NVIDIA AI研究团队推出的创新技术,将Score Distillation Sampling(SDS)技术扩展至文本条件音频扩散模型,为音频处理领域带来了重大突破。无需重新训练模型,可将任意预训练音频扩散模型转化为多功能工具,广泛应用于音效生成、音源分离、FM合成及语音增强等任务。Audio-SDS通过文本提示引导音频生成,支持高度定制化,满足…- 2
-
新壹视频大模型 – 新壹科技推出的AI视频创作大模型
新壹视频大模型项目简介 新壹视频大模型是新壹科技推出的AI视频创作大模型,自研AI算法和深度学习技术,实现从剧本到成品的一键式创作。具备剧本生成、情感化语音合成、3D元素创建和视频自动生成等功能,大幅降低创作成本,简化操作流程,提升用户体验,推动各行业数字化转型。 新壹视频大模型优势介绍 新壹视频大模型2.0是新壹科技最新推出的AI视频创作大模型,主要特点: 一键式创作流程:集成AI算法和深度学习…- 2
-
DeepSeek-V2.5-1210 – DeepSeek V2.5 的最终版微调模型,支持联网搜索
DeepSeek-V2.5-1210项目简介 DeepSeek-V2.5-1210是 DeepSeek 推出的 DeepSeek V2 系列收官AI模型,DeepSeek V2.5 的最终版微调模型。模型基于Post-Training迭代,在数学、编程、写作和角色扮演等方面实现能力提升(DeepSeek-V2.5-1210 在数学任务的完成率提升至82.8%,在实时编码得分提高至34.38%)。D…- 2
-
PrimitiveAnything – 腾讯联合清华大学推出的新型3D形状生成框架
PrimitiveAnything项目简介 PrimitiveAnything是腾讯人工智能平台部(AIPD)和清华大学联合开发的新型3D形状生成框架。将复杂的3D形状分解为简单的基元元素,通过自回归方式生成这些基元,最终重新组装成完整的3D形状。框架的核心优势在于其高质量的生成效果、强大的泛化能力和高效性。 PrimitiveAnything优势介绍 高质量3D原语组装生成:能生成高质量的3D原…- 2