-
Llama 4 – Meta 开源的多模态系列AI模型,重夺开源王座
Llama 4项目简介 Llama 4 是 Meta 开源的多模态系列AI模型。首次采用混合专家(MoE)架构,在训练和推理时计算效率更高。Llama 4 目前有 Scout 和 Maverick 两个版本。Scout 有 170 亿个活跃参数、16 个 “专家” 模型、1090 亿个总参数,支持 1000 万上下文,可处理 20 多小时视频,在单个 H100 GPU 上就能运行,性能超越 Gem…- 0
-
Cognita – 面向生产环境的开源、模块化 RAG 框架
Cognita项目简介 Cognita是开源的模块化RAG(Retrieval Augmented Generation)框架,能帮助开发者构建模块化、易于扩展和部署的生产级应用程序。Cognita用Langchain/LlamaIndex作为底层技术,提供代码组织结构,让每个组件都能通过API驱动,易于管理和扩展。Cognita支持本地部署,提供生产就绪环境及无代码UI支持,默认支持增量索引功能…- 0
-
OctoTools – 斯坦福推出解决复杂推理任务的开源智能体框架
OctoTools项目简介 OctoTools 是斯坦福大学推出的开源智能体框架,基于可扩展的工具解决复杂的推理任务。OctoTools用标准化的工具卡片(tool cards)封装工具功能,无需额外训练即可集成新工具。框架包含规划器(planner)用在高阶和低阶规划,执行器(executor)用在执行工具调用。OctoTools 在 16 个多样化的基准测试中表现出色,平均准确率比 GPT-4…- 0
-
Gemini Diffusion – 谷歌推出的文本扩散模型
Gemini Diffusion项目简介 Gemini Diffusion是谷歌推出的实验性文本扩散模型。与传统自回归模型逐词生成文本不同,基于逐步细化噪声生成输出,能快速迭代纠正错误,让Gemini Diffusion在文本生成任务中表现出色,具备快速响应、生成更连贯文本和迭代细化等能力。Gemini Diffusion性能在外部基准测试中与更大规模模型相当,速度更快。Gemini Diffus…- 2
-
Comic Translate – 开源的漫画翻译工具,自动翻译主流漫画阅读语言
Comic Translate项目简介 Comic Translate 是一个开源的漫画翻译工具,由开发者 ogkalu2 推出。帮助用户自动翻译全球各地的漫画,支持英语、韩语、日语、法语、简体中文、繁体中文、俄语、德语、荷兰语、西班牙语和意大利语等多种语言。Comic Translate基于最新的大型语言模型(如 GPT-4)和图像处理库(如 OpenCV 和 PIL)实现漫画中文字的识别和翻译…- 1
-
书生·浦语 – 上海人工智能实验室推出的开源AI大模型
书生·浦语项目简介 书生·浦语是上海人工智能实验室推出的开源AI大模型,具有卓越的推理能力和超长文本处理功能。书生·浦语支持高达一百万词元的文本输入,能自主进行网络搜索并整合信息,显著提升了处理复杂问题的能力。免费提供商用授权,旨在通过高质量开源资源赋能创新,促进AI技术的发展和应用。 书生·浦语优势介绍 超长文本处理能力:支持长达一百万词元的文本输入,适用于长文档理解和复杂交互场景。 强化推理能…- 2
-
AutoDroid-V2 – 清华推出的移动端GUI自动化脚本代理
AutoDroid-V2项目简介 AutoDroid-V2是清华大学人工智能产业研究院推出的基于小型语言模型(SLM)的移动端GUI自动化脚本代理,能基于代码生成技术提升设备上的GUI代理性能。AutoDroid-V2分析应用的探索历史,自动生成精细的应用文档,指导SLM生成多步脚本完成复杂的用户任务。与传统的逐步GUI代理相比,AutoDroid-V2显著提高了任务完成率和执行效率,减少对大型云…- 4
-
MNN – 阿里开源的移动端深度学习推理框架
MNN项目简介 MNN(Mobile Neural Network)是阿里巴巴集团开源的轻量级深度学习推理框架,为移动端、服务器、个人电脑、嵌入式设备等多种设备提供高效的模型部署能力。MNN支持TensorFlow、Caffe、ONNX等主流模型格式,兼容CNN、RNN、GAN等多种网络结构。MNN具备轻量性、通用性、高性能和易用性特点,能在不依赖特定硬件NPU的情况下运行大型模型,支持模型量化和…- 1