-
VideoLLaMB – 开源的多模态长视频理解框架
VideoLLaMB VideoLLaMB 是一种创新的长视频理解框架,通过引入记忆桥接层和递归记忆令牌来处理视频数据,确保在分析时不丢失关键视觉信息。模型特别设计用于理解长时间视频内容,保持语义连续性,并在多种任务中表现出色,如视频问答、自我中心规划和流式字幕生成。能有效地处理视频长度的增加,同时保持高性能和成本效益,适用于学术研究和实际应用。 VideoLLaMB优势介绍 长视频理解:处理和理…- 0
- 0
-
HourVideo – 李飞飞和吴佳俊团队推出的长视频理解基准数据集
HourVideo项目简介 HourVideo是斯坦福大学李飞飞和吴佳俊团队推出的长视频理解基准数据集,包含500个第一人称视角视频,时长20至120分钟,覆盖77种日常活动,能评估多模态模型对长视频的理解能力。数据集基于一系列任务,如总结、感知、视觉推理和导航,测试模型对视频中多个时间片段信息的识别和综合能力,推动长视频理解技术的发展。 HourVideo优势介绍 长视频理解评估:基于包含长达一…- 0
- 0