全部标签

LLMs

BALROG – 基准测试工具，用于评估LLMs和VLMs在复杂动态环境中的推理能力

BALROG项目简介 BALROG是评估大型语言模型（LLMs）和视觉语言模型（VLMs）在游戏上的推理能力，特别是模型在动态环境中的规划、空间推理和探索能力。基于一系列挑战性的游戏环境，包括程序生成的环境如NetHack，测试模型性能。BALROG揭示了现有模型在简单任务上的成功和在复杂任务上的挑战，尤其是在涉及视觉决策时。BALROG提供开放和细粒度的评估框架，推动自主代理研究的进展。 BAL…
工具测评
- 2
- 0
AI逻界17小时前
LongCite – 清华推出的开源模型，提升LLMs的精准引用减少幻觉

LongCite项目简介 LongCite是由清华大学推出的项目，旨在提升大型语言模型（LLMs）在长文本问答任务中的可信度和可验证性。项目通过生成细粒度的句子级引用，使用户能验证模型的回答是否准确。核心组成部分包括LongBench-Cite评估基准、CoF自动化数据构建流程、LongCite-45k数据集，以及基于该数据集训练的LongCite-8B和LongCite-9B模型。模型能理解长文…
工具测评
- 2
- 0
AI逻界6月15日