全部标签

视频理解

VideoLLaMB – 开源的多模态长视频理解框架

VideoLLaMB VideoLLaMB 是一种创新的长视频理解框架，通过引入记忆桥接层和递归记忆令牌来处理视频数据，确保在分析时不丢失关键视觉信息。模型特别设计用于理解长时间视频内容，保持语义连续性，并在多种任务中表现出色，如视频问答、自我中心规划和流式字幕生成。能有效地处理视频长度的增加，同时保持高性能和成本效益，适用于学术研究和实际应用。 VideoLLaMB优势介绍长视频理解：处理和理…
工具测评
- 0
- 0
AI逻界6月25日
HourVideo – 李飞飞和吴佳俊团队推出的长视频理解基准数据集

HourVideo项目简介 HourVideo是斯坦福大学李飞飞和吴佳俊团队推出的长视频理解基准数据集，包含500个第一人称视角视频，时长20至120分钟，覆盖77种日常活动，能评估多模态模型对长视频的理解能力。数据集基于一系列任务，如总结、感知、视觉推理和导航，测试模型对视频中多个时间片段信息的识别和综合能力，推动长视频理解技术的发展。 HourVideo优势介绍长视频理解评估：基于包含长达一…
工具测评
- 0
- 0
AI逻界6月15日