全部标签

工具测评

最新随机最多浏览最多喜欢

MakeAnything – 新加坡国立大学开源的一致性图片序列生成框架

MakeAnything项目简介 MakeAnything 是新加坡国立大学 Show Lab团队推出的基于扩散变换器（Diffusion Transformer）的多领域程序性序列生成框架，基于文本描述或图像输入生成高质量的分步教程。MakeAnything 基于非对称低秩适配（LoRA）技术平衡泛化能力和任务特定性能，引入ReCraft模型实现从图像到过程的逆向生成。MakeAnything构…
工具测评
- 2
6月3日
OmniCorpus – 百亿级多模态数据集，支持中英双语

OmniCorpus项目简介 OmniCorpus是一个大规模多模态数据集，包含86亿张图像和16960亿个文本标记，支持中英双语。由上海人工智能实验室联合多所知名高校及研究机构共同构建。OmniCorpus通过整合来自网站和视频平台的文本和视觉内容，提供了丰富的数据多样性。与现有数据集相比，OmniCorpus在规模和质量上都有显著提升，推动多模态大语言模型的研究和应用。数据集在GitHub上公…
工具测评
- 2
6月6日
Mistral Medium 3 – Mistral AI推出的多模态语言模型

Mistral Medium 3项目简介 Mistral Medium 3是Mistral AI推出的多模态语言模型。模型在性能和成本之间实现平衡，接近达到Claude Sonnet 3.7模型的性能水平，成本仅为后者的1/8（每百万Token的输入成本为0.4美元，输出成本为2美元）。模型在编程和多模态理解等专业领域表现出色，适合企业级应用，支持混合云部署、定制化后训练及与企业系统的集成。Mis…
工具测评
- 2
6月4日
安利7个冷门但有用的AI生产力工具，光速解决办公室工作当中遇到的棘手小问题

今天分享一些冷门但有用的AI宝藏网站，这些网站各种类型的工具应有尽有，绝对是工作学习的利器，能帮你提升效率解决各种小问题哦!? Recraft AI 首先，介绍一下Recraft AI，这是一个生成式AI工具，超级适合设计师、营销人员和艺术爱好者。你只需要输入文字提示，它就能为你生成高质量的矢量图、图标、3D图像和插图。而且还可以在线编辑哦！网址：https://www.recraft.ai/ …
工具测评
- 2
6月7日
FastVLM – 苹果推出的高效视觉语言模型

FastVLM项目简介 FastVLM是苹果推出的高效的视觉语言模型（VLM），能提升高分辨率图像处理的效率和性能。模型引入FastViTHD新型混合视觉编码器，有效减少视觉token数量，显著降低编码时间。FastVLM在保持与现有VLM相似性能的同时，大幅提升处理速度，例如在LLaVA-1.5设置中，相比其他模型，将首次生成token的时间（TTFT）缩短3.2倍。FastVLM在多种VLM基…
工具测评
- 2
5月26日
Pixel Reasoner – 滑铁卢联合港科大等高校推出的视觉语言模型

Pixel Reasoner项目简介 Pixel Reasoner是滑铁卢大学、香港科技大学、中国科学技术大学等机构推出的视觉语言模型（VLM），基于像素空间推理增强模型对视觉信息的理解和推理能力。模型能直接在视觉输入上进行操作，如放大图像区域或选择视频帧，更细致地捕捉视觉细节。Pixel Reasoner用两阶段训练方法，基于指令调优让模型熟悉视觉操作，用好奇心驱动的强化学习激励模型探索像素空间…
工具测评
- 2
6月3日
ProPainter – 南洋理工大学推出的AI视频修复项目

ProPainter项目简介 ProPainter是南洋理工大学S-Lab团队推出的AI视频修复项目。通过结合双域传播和蒙版引导的稀疏视频Transformer，有效提高了视频修复的性能。ProPainter能自动从视频中去除不需要的物体，填补缺失部分，甚至扩展视频视野，提供高质量的视觉内容。适合电影后期制作、历史视频资料修复以及社交媒体内容创作等领域。 ProPainter优势介绍对象移除：能…
工具测评
- 2
6月6日
InfiMM-WebMath-40B – 字节联合中科院开源的超大规模多模态数据集

InfiMM-WebMath-40B项目简介 InfiMM-WebMath-40B 是字节跳动和中国科学院联合开源的超大规模多模态数据集，旨在提升多模态模型的图文混合推理能力，在数学领域。数据集从 Common Crawl 中提取，经过严格的筛选、清洗和标注，包含 2400 万个网页、8500 万个图像 URL 和 400 亿个文本标记，涵盖了丰富的数学和科学相关内容。InfiMM-WebMath…
工具测评
- 2
6月6日