-
VSI-Bench – 李飞飞谢赛宁团队推出的视觉空间智能基准测试集
VSI-Bench项目简介 VSI-Bench(Visual-Spatial Intelligence Benchmark)是李飞飞、谢赛宁及他们的研究团队推出的视觉空间智能基准测试集,研究者构建用在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。VSI-Bench包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及住宅、办公室和工厂等多种环境。VSI-Bench任…- 1
-
Phidata – 创建具有记忆、知识、工具和推理能力的AI智能体框架
Phidata项目简介 Phidata是开源的AI智能体框架,帮助开发者构建具有记忆、知识、工具和推理能力的智能代理系统。支持创建能协同工作的代理团队,提供用户界面实现与代理的交互。Phidata包含监控和优化工具,便于跟踪代理性能和进行改进。Phidata支持将代理作为软件应用程序运行,包括数据库、向量数据库和API等组件。Phidata适于多种场景,如网络搜索、财务分析、数据科学和自动化任务等…- 2
-
MMRole – AI多模态角色扮演智能体(MRPA)框架
MMRole项目简介 MMRole是中国人民大学高瓴人工智能学院研究团队推出的的一种多模态角色扮演智能体(MRPA)框架。通过结合图像和文本,使智能体以特定角色进行更自然和沉浸式的对话。MMRole包括一个大规模、高质量的多模态数据集和一个全面的评估方法,用于开发和评测MRPAs的性能。框架的推出,为创建能够理解并生成与图像相关的对话内容的智能体提供了新的可能性,拓展了在教育、娱乐等领域的应用前景…- 2
-
InfiniteYou – 字节跳动开源的身份保持图像生成框架
InfiniteYou项目简介 InfiniteYou(InfU)是字节跳动智能创作团队推出的基于扩散变换器(Diffusion Transformers,如 FLUX)的身份保持图像生成框架。基于 InfuseNet 将身份特征注入扩散模型,增强身份相似度,保持图像生成能力。InfiniteYou结合多阶段训练策略,包括预训练和监督微调(SFT),用合成的单人多样本(SPMS)数据,提升文本与图…- 1
-
AgiBot World – 智元机器人开源的百万真机数据集
AgiBot World项目简介 AgiBot World是智元机器人开源的百万真机数据集,旨在推动具身智能的发展。数据集包含八十余种日常技能,覆盖家居、餐饮、工业等五大核心场景,数据规模和质量远超谷歌的Open X-Embodiment。基于智元自建的数据采集工厂和实验基地,通过8个摄像头和6个自由度的灵巧手等高级硬件配置,实现了全域真实场景的高质量数据采集。 AgiBot World优势介绍 …- 0
-
NEXUS-O – 多模态AI模型,实现对语言、音频和视觉全方位感知与交互
NEXUS-O项目简介 NEXUS-O 是HiThink 研究院、英国帝国理工学院、浙江大学、复旦大学、微软、Meta AI等机构推出的多模态AI模型,能实现对语言、音频和视觉信息的全方位感知与交互。NEXUS-O能处理音频、图像、视频和文本的任意组合输入,用音频或文本形式输出结果。NEXUS-O 基于视觉语言模型预训练,用高质量合成音频数据提升三模态对齐能力。NEXUS-O引入新的音频测试平台 …- 1
-
TryOffDiff – AI虚拟试穿技术,单张穿着者图片生成标准化服装图像
TryOffDiff项目简介 TryOffDiff(VTOFF)是基于扩散模型的新型虚拟试穿技术,用高保真服装重建实现虚拟试穿,专注于从单张穿着者照片生成标准化的服装图像。与传统的Virtual Try-On技术不同,TryOffDiff的目标是从参考图像中提取出规范的服装图像。这一过程面临着捕捉服装形状、纹理和复杂图案的挑战,让TryOffDiff在评估生成模型的重建精度方面特别有效。TryOf…- 2
-
ChatMLX – 高性能MacOS聊天应用,基于MLX框架实现与数据实时交互
ChatMLX项目简介 ChatMLX是一个基于大型语言模型(LLM)的高性能MacOS聊天应用,基于MLX框架实现与数据的交互。应用通过自然语言处理技术,让用户与数据进行对话,支持文本文档、PDF文件和YouTube视频。ChatMLX支持多种语言,包括中文、英语、法语、德语、印地语、意大利语、日语、韩语、西班牙语、土耳其语和越南语,使全球用户方便使用。用Python的包管理器pip安装,安装完…- 2