-
MakeAnything – 新加坡国立大学开源的一致性图片序列生成框架
MakeAnything项目简介 MakeAnything 是新加坡国立大学 Show Lab团队推出的基于扩散变换器(Diffusion Transformer)的多领域程序性序列生成框架,基于文本描述或图像输入生成高质量的分步教程。MakeAnything 基于非对称低秩适配(LoRA)技术平衡泛化能力和任务特定性能,引入ReCraft模型实现从图像到过程的逆向生成。MakeAnything构…- 2
-
OmniCorpus – 百亿级多模态数据集,支持中英双语
OmniCorpus项目简介 OmniCorpus是一个大规模多模态数据集,包含86亿张图像和16960亿个文本标记,支持中英双语。由上海人工智能实验室联合多所知名高校及研究机构共同构建。OmniCorpus通过整合来自网站和视频平台的文本和视觉内容,提供了丰富的数据多样性。与现有数据集相比,OmniCorpus在规模和质量上都有显著提升,推动多模态大语言模型的研究和应用。数据集在GitHub上公…- 2
-
Mistral Medium 3 – Mistral AI推出的多模态语言模型
Mistral Medium 3项目简介 Mistral Medium 3是Mistral AI推出的多模态语言模型。模型在性能和成本之间实现平衡,接近达到Claude Sonnet 3.7模型的性能水平,成本仅为后者的1/8(每百万Token的输入成本为0.4美元,输出成本为2美元)。模型在编程和多模态理解等专业领域表现出色,适合企业级应用,支持混合云部署、定制化后训练及与企业系统的集成。Mis…- 2
-
安利7个冷门但有用的AI生产力工具,光速解决办公室工作当中遇到的棘手小问题
今天分享一些冷门但有用的AI宝藏网站,这些网站各种类型的工具应有尽有,绝对是工作学习的利器,能帮你提升效率解决各种小问题哦!? Recraft AI 首先,介绍一下Recraft AI,这是一个生成式AI工具,超级适合设计师、营销人员和艺术爱好者。你只需要输入文字提示,它就能为你生成高质量的矢量图、图标、3D图像和插图。而且还可以在线编辑哦! 网址:https://www.recraft.ai/ …- 2
-
FastVLM – 苹果推出的高效视觉语言模型
FastVLM项目简介 FastVLM是苹果推出的高效的视觉语言模型(VLM),能提升高分辨率图像处理的效率和性能。模型引入FastViTHD新型混合视觉编码器,有效减少视觉token数量,显著降低编码时间。FastVLM在保持与现有VLM相似性能的同时,大幅提升处理速度,例如在LLaVA-1.5设置中,相比其他模型,将首次生成token的时间(TTFT)缩短3.2倍。FastVLM在多种VLM基…- 2
-
Pixel Reasoner – 滑铁卢联合港科大等高校推出的视觉语言模型
Pixel Reasoner项目简介 Pixel Reasoner是滑铁卢大学、香港科技大学、中国科学技术大学等机构推出的视觉语言模型(VLM),基于像素空间推理增强模型对视觉信息的理解和推理能力。模型能直接在视觉输入上进行操作,如放大图像区域或选择视频帧,更细致地捕捉视觉细节。Pixel Reasoner用两阶段训练方法,基于指令调优让模型熟悉视觉操作,用好奇心驱动的强化学习激励模型探索像素空间…- 2
-
ProPainter – 南洋理工大学推出的AI视频修复项目
ProPainter项目简介 ProPainter是南洋理工大学S-Lab团队推出的AI视频修复项目。通过结合双域传播和蒙版引导的稀疏视频Transformer,有效提高了视频修复的性能。ProPainter能自动从视频中去除不需要的物体,填补缺失部分,甚至扩展视频视野,提供高质量的视觉内容。适合电影后期制作、历史视频资料修复以及社交媒体内容创作等领域。 ProPainter优势介绍 对象移除:能…- 2
-
InfiMM-WebMath-40B – 字节联合中科院开源的超大规模多模态数据集
InfiMM-WebMath-40B项目简介 InfiMM-WebMath-40B 是字节跳动和中国科学院联合开源的超大规模多模态数据集,旨在提升多模态模型的图文混合推理能力,在数学领域。数据集从 Common Crawl 中提取,经过严格的筛选、清洗和标注,包含 2400 万个网页、8500 万个图像 URL 和 400 亿个文本标记,涵盖了丰富的数学和科学相关内容。InfiMM-WebMath…- 2