-
SigLIP 2 – 谷歌 DeepMind 推出的多语言视觉语言编码器模型
SigLIP 2项目简介 SigLIP 2 是Google DeepMind 提出先进的多语言视觉-语言模型 ,是 SigLIP 的升级版本,提升图像与文本之间的对齐能力。通过改进的训练方法和架构,显著增强了模型在多语言理解、零样本分类、图像-文本检索等任务中的表现。SigLIP 2能处理多种语言的文本输入,与图像进行精准匹配。引入了自监督学习技术,如掩码预测和自蒸馏,进一步优化了模型的特征提取能…- 0
-
HunyuanCustom – 腾讯混元开源的多模态定制视频生成框架
HunyuanCustom项目简介 HunyuanCustom是腾讯混元团队推出的多模态驱动的定制化视频生成框架。HunyuanCustom支持图像、音频、视频和文本等多种输入条件,支持生成具有特定主体和场景的高质量视频。引入基于LLaVA的文本-图像融合模块和图像ID增强模块,HunyuanCustom在身份一致性、真实感和文本-视频对齐方面显著优于现有方法。框架支持音频驱动和视频驱动的视频生成…- 0
-
Janus-Pro – DeepSeek 开源的统一多模态模型
Janus-Pro项目简介 Janus-Pro是 DeepSeek 推出的开源AI模型,支持图像理解和图像生成,提供 1B 和 7B 两种规模,适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规模的模型,显著提升了文本到图像的生成能力和指令跟随性能。Janus-Pro 采用解耦的视觉编码路径,提升了多模态任务的灵活性,在图像生成任务中表现出较高的稳定性和精准度,成为一个强大的统一多模态模型…- 0
-
ItiNera – 港大与MIT联合推出的AI城市行程规划(OUIP)系统
ItiNera项目简介 ItiNera 是港大和MIT联合开发的智能城市行程规划系统。基于大型语言模型(LLM)和空间优化技术,根据用户的个性化需求,如情侣酒吧、二次元圣地等,一键生成Citywalk路线。系统包含五大模块:用户兴趣点数据库构建、请求解析、偏好感知兴趣点检索、聚类感知空间优化和行程生成。ITINERA在多个城市数据集上训练,能提供实时更新的POI和活动信息,确保行程空间连贯且符合用…- 0
-
Mini-InternVL – 上海AI Lab联合清华等机构推出的轻量级多模态大模型
Mini-InternVL项目简介 Mini-InternVL是“迷你版”书生·万象大模型,是上海AI实验室与清华大学、南京大学等机构联合推出的轻量级多模态大型语言模型系列,包含1B、2B和4B三个参数版本,用较小的参数量实现较高的性能,其中Mini-InternVL-4B仅用5%的参数量达到InternVL2-76B约九成的性能。Mini-InternVL用InternViT-300M作为视觉编…- 1
-
AndroidGen – 智谱推出增强大语言模型 Agent 能力的框架
AndroidGen项目简介 AndroidGen 是智谱技术团队推出增强基于大语言模型(LLM)的 Agent 能力的框架,特别是在数据稀缺的情况下。框架通过收集人类任务轨迹基于这些轨迹训练语言模型,开发出无需人工标注轨迹的 Agent,显著提升 LLM 执行复杂任务的能力。 AndroidGen优势介绍 无需人工标注的数据收集与训练:AndroidGen 能在无需人工标注轨迹的情况下,通过收集…- 1
-
Maestro – 开源的端到端自动化测试框架
Maestro项目简介 Maestro是用在移动和Web应用的端到端自动化测试框架。基于内置的容错能力和延迟容忍机制,解决传统测试中常见的不稳定性和等待问题。Maestro基于声明式语法,支持在yaml文件中定义测试,无需编译快速迭代。Maestro简单易用的单二进制文件设计,让测试环境的搭建变得轻松。Maestro提供丰富的文档和社区支持,适合希望高效进行UI测试的开发团队。 Maestro优势…- 1
-
APB – 清华联合腾讯等机构推出的分布式长上下文推理框架
APB项目简介 APB(Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs)是清华大学等机构联合提出的分布式长上下文推理框架。通过稀疏注意力机制和序列并行推理方式,有效解决了大模型处理长文本时的效率瓶颈。APB采用更小的Anchor block和Passin…- 1