全部标签

工具测评

最新随机最多浏览最多喜欢

SigLIP 2 – 谷歌 DeepMind 推出的多语言视觉语言编码器模型

SigLIP 2项目简介 SigLIP 2 是Google DeepMind 提出先进的多语言视觉-语言模型，是 SigLIP 的升级版本，提升图像与文本之间的对齐能力。通过改进的训练方法和架构，显著增强了模型在多语言理解、零样本分类、图像-文本检索等任务中的表现。SigLIP 2能处理多种语言的文本输入，与图像进行精准匹配。引入了自监督学习技术，如掩码预测和自蒸馏，进一步优化了模型的特征提取能…
工具测评
- 0
20小时前
HunyuanCustom – 腾讯混元开源的多模态定制视频生成框架

HunyuanCustom项目简介 HunyuanCustom是腾讯混元团队推出的多模态驱动的定制化视频生成框架。HunyuanCustom支持图像、音频、视频和文本等多种输入条件，支持生成具有特定主体和场景的高质量视频。引入基于LLaVA的文本-图像融合模块和图像ID增强模块，HunyuanCustom在身份一致性、真实感和文本-视频对齐方面显著优于现有方法。框架支持音频驱动和视频驱动的视频生成…
工具测评
- 0
20小时前
Janus-Pro – DeepSeek 开源的统一多模态模型

Janus-Pro项目简介 Janus-Pro是 DeepSeek 推出的开源AI模型，支持图像理解和图像生成，提供 1B 和 7B 两种规模，适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规模的模型，显著提升了文本到图像的生成能力和指令跟随性能。Janus-Pro 采用解耦的视觉编码路径，提升了多模态任务的灵活性，在图像生成任务中表现出较高的稳定性和精准度，成为一个强大的统一多模态模型…
工具测评
- 0
20小时前
ItiNera – 港大与MIT联合推出的AI城市行程规划（OUIP）系统

ItiNera项目简介 ItiNera 是港大和MIT联合开发的智能城市行程规划系统。基于大型语言模型（LLM）和空间优化技术，根据用户的个性化需求，如情侣酒吧、二次元圣地等，一键生成Citywalk路线。系统包含五大模块：用户兴趣点数据库构建、请求解析、偏好感知兴趣点检索、聚类感知空间优化和行程生成。ITINERA在多个城市数据集上训练，能提供实时更新的POI和活动信息，确保行程空间连贯且符合用…
工具测评
- 0
21小时前
Mini-InternVL – 上海AI Lab联合清华等机构推出的轻量级多模态大模型

Mini-InternVL项目简介 Mini-InternVL是“迷你版”书生·万象大模型，是上海AI实验室与清华大学、南京大学等机构联合推出的轻量级多模态大型语言模型系列，包含1B、2B和4B三个参数版本，用较小的参数量实现较高的性能，其中Mini-InternVL-4B仅用5%的参数量达到InternVL2-76B约九成的性能。Mini-InternVL用InternViT-300M作为视觉编…
工具测评
- 1
7月15日
AndroidGen – 智谱推出增强大语言模型 Agent 能力的框架

AndroidGen项目简介 AndroidGen 是智谱技术团队推出增强基于大语言模型（LLM）的 Agent 能力的框架，特别是在数据稀缺的情况下。框架通过收集人类任务轨迹基于这些轨迹训练语言模型，开发出无需人工标注轨迹的 Agent，显著提升 LLM 执行复杂任务的能力。 AndroidGen优势介绍无需人工标注的数据收集与训练：AndroidGen 能在无需人工标注轨迹的情况下，通过收集…
工具测评
- 1
7月15日
Maestro – 开源的端到端自动化测试框架

Maestro项目简介 Maestro是用在移动和Web应用的端到端自动化测试框架。基于内置的容错能力和延迟容忍机制，解决传统测试中常见的不稳定性和等待问题。Maestro基于声明式语法，支持在yaml文件中定义测试，无需编译快速迭代。Maestro简单易用的单二进制文件设计，让测试环境的搭建变得轻松。Maestro提供丰富的文档和社区支持，适合希望高效进行UI测试的开发团队。 Maestro优势…
工具测评
- 1
7月15日
APB – 清华联合腾讯等机构推出的分布式长上下文推理框架

APB项目简介 APB（Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs）是清华大学等机构联合提出的分布式长上下文推理框架。通过稀疏注意力机制和序列并行推理方式，有效解决了大模型处理长文本时的效率瓶颈。APB采用更小的Anchor block和Passin…
工具测评
- 1
7月15日