-
OSAID 1.0 – OSI发布的全球首个开源 AI 官方标准1.0版本
OSAID 1.0项目简介 OSAID 1.0(The Open Source AI Definition – 1.0)是Open Source Initiative(OSI)发布的官方标准,用在明确AI系统成为开放源代码的条件。参与制定OSAID 1.0的组织包括微软、谷歌、亚马逊、Meta、英特尔、三星、Mozilla基金会、Linux基金会、Apache软件基金会等超过25个组织。OSAID…- 2
-
Xiaomi MiMo – 小米开源的首个推理大模型
Xiaomi MiMo项目简介 Xiaomi MiMo 是小米开源的首个推理(Reasoning)大模型,支持提升模型在复杂推理任务中的表现。模型基于联动预训练和后训练,挖掘大量富推理语料并采用创新的强化学习算法,显著提升数学推理和代码生成能力。MiMo 仅用 7B 参数规模,在公开测评集上超越 OpenAI 的 o1-mini 和阿里 Qwen 的 QwQ-32B-Preview 等更大规模模型…- 0
-
Parakeet TDT 0.6B – 英伟达开源的自动语音识别模型
Parakeet TDT 0.6B项目简介 Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速推理,减少计算开销。模型在1秒内可转录60分钟音频,实时因子(RTFx)达3386,平均单词错误率(WER)仅为6.05%,在LibriSpeech-clean数据集上WER低至1.69…- 1
-
Grok-2 – xAI公司推出的新一代AI模型
Grok-2项目简介 Grok-2是xAI公司推出的新一代AI模型,提供卓越的聊天、编程和推理能力。在学术基准测试中,Grok-2在GPQA、MMLU、MMLU-Pro和MATH等领域的表现超越了前代Grok-1.5,与行业前沿模型相媲美。Grok-2在视觉任务MathVista和DocVQA上展现出行业领先的水平,并与Black Forest Labs的FLUX.1模型合作,扩展了Grok-2的…- 1
-
AI应用实战当优美中国古典文学遇上AI绘画:利用OpenAI图像生成器DALL·E 3复现古诗词里边的场景
OpenAI在今年9月底发布了新一代的AI图像生成大模型DALL·E 3,它基于DALL·E 2升级而来,能够根据用户的文字描述生成逼真的图像。 点击下方卡片访问官网了解更多: DALL·E 3 OpenAI 开发的新一代人工智能图像生成工具,能够根据用户的文字描述生成逼真的图像。 获取工具 得益于ChatGPT的强大语感领悟与生成能力,DALL·E 3生图真的超级强,尤其是对于提示词的语义理解和…- 2
-
3FS – DeepSeek开源的高性能分布式文件系统
3FS项目简介 3FS(Fire-Flyer File System)是DeepSeek推出的高性能分布式文件系统,专为AI训练和推理任务设计。3FS用现代SSD和RDMA网络技术,基于分离式架构聚合数千个SSD的吞吐量和数百个存储节点的网络带宽,提供高达6.6 TiB/s的读取吞吐量。3FS提供强一致性保障,提供通用文件接口,无需学习新的存储API。3FS在大规模数据处理和推理优化中表现出色,在…- 0
-
Aider – 开源AI编程助手,基于命令行指定自动完成代码修改
Aider项目简介 Aider 是开源的AI辅助编程工具,基于终端与大型语言模型(LLM)配合,实现高效代码编辑和开发。Aider支持多种编程语言,如 Python、JavaScript、TypeScript 等,能与 Claude 3.5 Sonnet、DeepSeek R1、OpenAI 的o3-mini、 GPT-4o 等多种 LLM 无缝对接。用户基于命令行指定文件并描述需求,Aider …- 0
-
MinT – 生成顺序事件的文本转视频模型,灵活控制时间戳
MinT项目简介 MinT(Mind the Time)是Snap Research、多伦多大学和向量研究所联合推出的多事件视频生成框架,基于精确的时间控制,根据文本提示生成包含多个事件的视频序列。MinT的核心技术是时间基位置编码(ReRoPE),让模型能将特定的文本提示与视频中的相应时间段关联起来,确保事件按顺序发生,控制每个事件的持续时间。作为首个提供视频中事件时间控制的模型,MinT在生成…- 2