-
SpatialLM – 群核科技开源的空间理解多模态模型
SpatialLM项目简介 SpatialLM 是群核科技开源的空间理解多模态模型,赋予机器人和智能系统类似人类的空间认知能力。通过分析普通手机拍摄的视频,能重建出详细的 3D 场景布局,标注出房间结构、家具摆放、通道宽度等信息。模型基于大语言模型框架,结合点云重建和结构化表示技术,将视频中的场景转化为结构化的 3D 模型,为具身智能训练提供了高效的基础框架。 SpatialLM优势介绍 视频生成…- 0
-
StoryWeaver – 厦大和网易伏羲联合推出的统一故事可视化 AI 模型
StoryWeaver项目简介 StoryWeaver是厦门大学多媒体可信感知与高效计算教育部重点实验室和网易伏羲人工智能实验室推出的AI模型,能用知识增强的故事角色定制实现高质量的故事可视化。StoryWeaver用新颖的知识图谱Character Graph丰富地表示故事中的角色、属性和关系,用Customization via Character Graph(CCG)和知识增强空间引导(KE…- 0
-
HybridRAG – 黑石联合英伟达推出的混合检索增强生成架构
HybridRAG项目简介 HybridRAG 是黑石联合英伟达推出的混合检索增强生成架构,结合了检索增强生成(Retrieval-Augmented Generation)模型的机器学习架构。模型通过检索系统寻找与输入相关的信息,然后将这些信息与输入一起输入到生成模型中,生成更准确和丰富的输出。HybridRAG在问答、摘要和对话生成等自然语言处理任务中表现出色,能用大量外部知识,提高生成内容的…- 3
-
仅需1分钟效率暴涨,用ChatGPT+Xmind生成思维导图
一.视频“课代表” 00:00:00 - 00:01:04 预热前言,讲生成思维导图的方法 00:01:04 - 00:01:52 利用ChatGPT4.0为我们markdown的思维导图格式 00:01:52 - 00:02:36 markdown导入到Xmind中生成思维导图文件 00:02:36 - 00:03:34 Xmind AI直接生成思维导图文件 00:03:34 - 00:04:2…- 1
-
OSAID 1.0 – OSI发布的全球首个开源 AI 官方标准1.0版本
OSAID 1.0项目简介 OSAID 1.0(The Open Source AI Definition – 1.0)是Open Source Initiative(OSI)发布的官方标准,用在明确AI系统成为开放源代码的条件。参与制定OSAID 1.0的组织包括微软、谷歌、亚马逊、Meta、英特尔、三星、Mozilla基金会、Linux基金会、Apache软件基金会等超过25个组织。OSAID…- 2
-
ImageBind – Meta推出开源多模态AI模型,实现六种多模态数据整合
ImageBind项目简介 ImageBind是Meta公司推出的开源多模态AI模型,将文本、音频、视觉、温度和运动数据等六种不同类型的信息整合到一个统一的嵌入空间中。模型通过图像模态作为桥梁,实现其他模态数据的隐式对齐,无需直接的模态间配对数据。ImageBind在跨模态检索、零样本分类等任务中展现出色的性能,为创建沉浸式、多感官的AI体验提供新的可能性。 ImageBind优势介绍 多模态数据…- 1
-
VSI-Bench – 李飞飞谢赛宁团队推出的视觉空间智能基准测试集
VSI-Bench项目简介 VSI-Bench(Visual-Spatial Intelligence Benchmark)是李飞飞、谢赛宁及他们的研究团队推出的视觉空间智能基准测试集,研究者构建用在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。VSI-Bench包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及住宅、办公室和工厂等多种环境。VSI-Bench任…- 1
-
Phidata – 创建具有记忆、知识、工具和推理能力的AI智能体框架
Phidata项目简介 Phidata是开源的AI智能体框架,帮助开发者构建具有记忆、知识、工具和推理能力的智能代理系统。支持创建能协同工作的代理团队,提供用户界面实现与代理的交互。Phidata包含监控和优化工具,便于跟踪代理性能和进行改进。Phidata支持将代理作为软件应用程序运行,包括数据库、向量数据库和API等组件。Phidata适于多种场景,如网络搜索、财务分析、数据科学和自动化任务等…- 1