-
OctoTools – 斯坦福推出解决复杂推理任务的开源智能体框架
OctoTools项目简介 OctoTools 是斯坦福大学推出的开源智能体框架,基于可扩展的工具解决复杂的推理任务。OctoTools用标准化的工具卡片(tool cards)封装工具功能,无需额外训练即可集成新工具。框架包含规划器(planner)用在高阶和低阶规划,执行器(executor)用在执行工具调用。OctoTools 在 16 个多样化的基准测试中表现出色,平均准确率比 GPT-4…- 0
-
Gemini Diffusion – 谷歌推出的文本扩散模型
Gemini Diffusion项目简介 Gemini Diffusion是谷歌推出的实验性文本扩散模型。与传统自回归模型逐词生成文本不同,基于逐步细化噪声生成输出,能快速迭代纠正错误,让Gemini Diffusion在文本生成任务中表现出色,具备快速响应、生成更连贯文本和迭代细化等能力。Gemini Diffusion性能在外部基准测试中与更大规模模型相当,速度更快。Gemini Diffus…- 2
-
Comic Translate – 开源的漫画翻译工具,自动翻译主流漫画阅读语言
Comic Translate项目简介 Comic Translate 是一个开源的漫画翻译工具,由开发者 ogkalu2 推出。帮助用户自动翻译全球各地的漫画,支持英语、韩语、日语、法语、简体中文、繁体中文、俄语、德语、荷兰语、西班牙语和意大利语等多种语言。Comic Translate基于最新的大型语言模型(如 GPT-4)和图像处理库(如 OpenCV 和 PIL)实现漫画中文字的识别和翻译…- 1
-
书生·浦语 – 上海人工智能实验室推出的开源AI大模型
书生·浦语项目简介 书生·浦语是上海人工智能实验室推出的开源AI大模型,具有卓越的推理能力和超长文本处理功能。书生·浦语支持高达一百万词元的文本输入,能自主进行网络搜索并整合信息,显著提升了处理复杂问题的能力。免费提供商用授权,旨在通过高质量开源资源赋能创新,促进AI技术的发展和应用。 书生·浦语优势介绍 超长文本处理能力:支持长达一百万词元的文本输入,适用于长文档理解和复杂交互场景。 强化推理能…- 2
-
AutoDroid-V2 – 清华推出的移动端GUI自动化脚本代理
AutoDroid-V2项目简介 AutoDroid-V2是清华大学人工智能产业研究院推出的基于小型语言模型(SLM)的移动端GUI自动化脚本代理,能基于代码生成技术提升设备上的GUI代理性能。AutoDroid-V2分析应用的探索历史,自动生成精细的应用文档,指导SLM生成多步脚本完成复杂的用户任务。与传统的逐步GUI代理相比,AutoDroid-V2显著提高了任务完成率和执行效率,减少对大型云…- 5
-
MNN – 阿里开源的移动端深度学习推理框架
MNN项目简介 MNN(Mobile Neural Network)是阿里巴巴集团开源的轻量级深度学习推理框架,为移动端、服务器、个人电脑、嵌入式设备等多种设备提供高效的模型部署能力。MNN支持TensorFlow、Caffe、ONNX等主流模型格式,兼容CNN、RNN、GAN等多种网络结构。MNN具备轻量性、通用性、高性能和易用性特点,能在不依赖特定硬件NPU的情况下运行大型模型,支持模型量化和…- 1
-
ViDoRAG – 通义联合中科大、上交大推出的视觉文档检索增强生成框架
ViDoRAG项目简介 ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭代推理,解决传统方法在处理复杂视觉文档时的检索和推理局限性。ViDoRAG用高斯混合模型(GMM)的多模态混合检索策略,动态调整检索结果数量,优化文本和视觉信息的整合。框架中包含Seeker、Inspector和Answer三种智能体,分别负责快速筛选…- 1
-
我们用豆包视频大模型,生成了AI版的《红楼梦》MV
要论最近最火的AI视频生成模型,无疑就属字节豆包了。 也就是字节一口气亮出的PixelDance模型和Seaweed模型。 而且大家都说效果好,那这不就得亲自测试一波喽,而且是直接上难度的那种—— 最近抖音里很多人都在模仿林黛玉哭泣,我们不妨用“全字节系的AI”来制作一支《红楼梦》的MV。 然后啊,效果简直就是一个大写的万万没想到! 话不多说,直接展示成果: 不论是生成的多人物、画面的质量,甚至是…- 2