AI逻界

  • 首页
  • AI工具大全
  • AI教程
  • AI资讯
  • 工具测评
AI工具
AI工具文章

AI逻界

  • AI写作
  • AI办公
  • AI图像
  • AI视频
  • AI训练
  • AI设计
  • AI问答
  • AI音频
全部标签

LLMs

  • BALROG – 基准测试工具,用于评估LLMs和VLMs在复杂动态环境中的推理能力

    BALROG – 基准测试工具,用于评估LLMs和VLMs在复杂动态环境中的推理能力

    BALROG项目简介 BALROG是评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏上的推理能力,特别是模型在动态环境中的规划、空间推理和探索能力。基于一系列挑战性的游戏环境,包括程序生成的环境如NetHack,测试模型性能。BALROG揭示了现有模型在简单任务上的成功和在复杂任务上的挑战,尤其是在涉及视觉决策时。BALROG提供开放和细粒度的评估框架,推动自主代理研究的进展。 BAL…
    工具测评
    • 2
    • 0
    AI逻界AI逻界17小时前
  • LongCite – 清华推出的开源模型,提升LLMs的精准引用减少幻觉

    LongCite – 清华推出的开源模型,提升LLMs的精准引用减少幻觉

    LongCite项目简介 LongCite是由清华大学推出的项目,旨在提升大型语言模型(LLMs)在长文本问答任务中的可信度和可验证性。项目通过生成细粒度的句子级引用,使用户能验证模型的回答是否准确。核心组成部分包括LongBench-Cite评估基准、CoF自动化数据构建流程、LongCite-45k数据集,以及基于该数据集训练的LongCite-8B和LongCite-9B模型。模型能理解长文…
    工具测评
    • 2
    • 0
    AI逻界AI逻界6月15日
Copyright © 2025 AI逻界
・宁ICP备2022000687号-38
查询 88 次,耗时 0.2183 秒