-
GOT-OCR2.0 – 开源的端到端OCR模型,多语言多模态识别,多样化输入输出
GOT-OCR2.0项目简介 GOT-OCR 2.0是一种先进的光学字符识别(OCR)模型,推动OCR技术进入2.0时代。GOT-OCR 2.0端到端的模型由高压缩编码器和长上下文解码器组成,能处理包括文本、数学公式、分子式、图表、乐谱和几何图形在内的多种光学字符。GOT-OCR 2.0支持多种语言,尤其是中文和英文,能输出多种格式化结果,如Markdown和LaTeX。模型具备交互式OCR功能,…- 2
-
MakeAnything – 新加坡国立大学开源的一致性图片序列生成框架
MakeAnything项目简介 MakeAnything 是新加坡国立大学 Show Lab团队推出的基于扩散变换器(Diffusion Transformer)的多领域程序性序列生成框架,基于文本描述或图像输入生成高质量的分步教程。MakeAnything 基于非对称低秩适配(LoRA)技术平衡泛化能力和任务特定性能,引入ReCraft模型实现从图像到过程的逆向生成。MakeAnything构…- 2
-
Mistral Medium 3 – Mistral AI推出的多模态语言模型
Mistral Medium 3项目简介 Mistral Medium 3是Mistral AI推出的多模态语言模型。模型在性能和成本之间实现平衡,接近达到Claude Sonnet 3.7模型的性能水平,成本仅为后者的1/8(每百万Token的输入成本为0.4美元,输出成本为2美元)。模型在编程和多模态理解等专业领域表现出色,适合企业级应用,支持混合云部署、定制化后训练及与企业系统的集成。Mis…- 2
-
FastVLM – 苹果推出的高效视觉语言模型
FastVLM项目简介 FastVLM是苹果推出的高效的视觉语言模型(VLM),能提升高分辨率图像处理的效率和性能。模型引入FastViTHD新型混合视觉编码器,有效减少视觉token数量,显著降低编码时间。FastVLM在保持与现有VLM相似性能的同时,大幅提升处理速度,例如在LLaVA-1.5设置中,相比其他模型,将首次生成token的时间(TTFT)缩短3.2倍。FastVLM在多种VLM基…- 2
-
Pixel Reasoner – 滑铁卢联合港科大等高校推出的视觉语言模型
Pixel Reasoner项目简介 Pixel Reasoner是滑铁卢大学、香港科技大学、中国科学技术大学等机构推出的视觉语言模型(VLM),基于像素空间推理增强模型对视觉信息的理解和推理能力。模型能直接在视觉输入上进行操作,如放大图像区域或选择视频帧,更细致地捕捉视觉细节。Pixel Reasoner用两阶段训练方法,基于指令调优让模型熟悉视觉操作,用好奇心驱动的强化学习激励模型探索像素空间…- 2
-
Promptim – AI提示优化库,自动迭代优化、生成最佳配置
Promptim项目简介 Promptim是实验性的AI提示优化库,基于自动化流程提升AI系统在特定任务上的提示效果。用户提供初始提示、数据集和自定义评估器,Promptim能自动运行优化循环,生成更优的提示。这一过程提高了AI任务的性能,支持用人工反馈进一步指导优化,实现更精准的AI系统调优。Promptim的目标是简化AI提示的调整和优化工作,让AI系统更加高效和智能。 Promptim优势介…- 1
-
Baichuan4-Finance – 百川智能推出的全链路金融领域增强大模型
Baichuan4-Finance项目简介 Baichuan4-Finance是百川智能推出的全链路金融领域增强大模型,包括Baichuan4-Finance-Base和Baichuan4-Finance。基于Baichuan4-Turbo,用领域自约束训练,在保持通用能力的同时,增强金融知识。Baichuan4-Finance在金融评测基准如FLAME和FinanceIQ中表现优异,超越GPT-…- 1
-
AutoGLM – 智谱AI推出的模拟人类操作手机的AI智能体
AutoGLM项目简介 AutoGLM是智谱AI团队最新推出的 “Phone Use” AI智能体,基于图形用户界面(GUI)实现自主任务完成。AutoGLM能模拟人类在手机操作,执行如社交媒体互动、在线购物、酒店预订等任务。AutoGLM能接收简单的文字或语音指令,自动完成复杂的操作流程,无需用户手动干预。 AutoGLM的技术核心包括基础智能体解耦合中间界面和自进化在线课程强化学习框架,让Au…- 1