-
英伟达与MIT合作推出 Fast-dLLM 框架,AI 推理速度提升 27.6 倍
近日,科技巨头英伟达联合麻省理工学院(MIT)与香港大学,发布了名为 Fast-dLLM 的新框架。这一创新的框架旨在显著提高扩散模型(Diffusion-based LLMs)的推理速度,最高可达27.6倍,为人工智能的应用提供了更为强大的技术支持。 扩散模型的挑战与机遇 扩散模型被视为传统自回归模型(Autoregressive Models)的有力竞争者。它采用双向注意力机制(Bidire…- 1
- 0
-
Llama-3.1-Minitron – 英伟达联合Meta推出的Llama 3.1 4B参数模型
Llama-3.1-Minitron项目简介 Llama-3.1-Minitron是由英伟达和Meta合作开发的AI模型,通过剪枝和知识蒸馏技术从Llama 3.1 8B模型精炼而成的更小型4B参数模型。这种优化减少了模型大小和复杂性,同时保持了核心性能。Llama-3.1-Minitron 4B在多个基准测试中表现优异,与更大模型相比具有竞争力,且在FP8精度下吞吐量提升显著,是AI绘画和写作等…- 1
- 0
-
互联网女皇AI趋势报告:AI模型训练成本超高,但推理成本断崖式下降
根据互联网女皇发布的AI趋势报告的深度分析,人工智能(AI)模型的计算经济学正经历着一场关键的转变。报告指出,训练最强大的大型语言模型(LLM)已成为人类历史上最昂贵、资本最密集的投入之一,目前每个模型的训练成本往往超过1亿美元。Anthropic首席执行官Dario Amodei在2024年中指出,目前有模型正在训练,其成本接近10亿美元,并预测到2025年,训练成本高达100亿美元的模型可能会…- 0
- 0