-
SpeechGPT 2.0-preview – 复旦大学推出的端到端实时语音交互模型
SpeechGPT 2.0-preview项目简介 SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队推出的拟人化实时交互系统,基于百万小时级中文语音数据训练,采用端到端架构,实现了语音与文本模态的高度融合。模型具有拟人口语化表达、百毫秒级低延迟响应,支持自然流畅的实时打断交互。能精准控制语速、情感、风格和音色,实现智能切换。SpeechGPT 2.0-preview …- 0
-
EasyOCR – 支持超80种语言的开源OCR项目
EasyOCR项目简介 EasyOCR 是一个功能强大的开源OCR(光学字符识别)项目,支持80多种语言和多种书写系统,包括中文、阿拉伯文和西里尔文。基于深度学习技术,提供高精度的文字识别能力。用户可以通过简单的API轻松地将图像中的文本转换为可编辑的文本。EasyOCR易于安装和使用,支持跨平台操作,适用于批量处理图像文件。对图像质量有一定要求,在处理大型图像时速度较慢,不过还是一个用户友好的O…- 1
-
s1 – 斯坦福和华盛顿大学推出低成本、高性能的AI推理模型
s1项目简介 s1是斯坦福大学和华盛顿大学的研究团队开发的低成本、高性能的AI推理模型。模型通过“蒸馏”技术从谷歌的Gemini 2.0 Flash Thinking Experimental模型中提取推理能力。研究人员仅使用1000个精心策划的问题及其答案进行训练,训练成本不到50美元,训练过程耗时不到30分钟。S1模型在数学和编程能力测试中表现优异,与OpenAI的o1和DeepSeek R1…- 0
-
X-Prompt – 用于多模态视频目标分割的通用框架
X-Prompt项目简介 X-Prompt是用于多模态视频目标分割的通用框架,解决传统方法在极端光照、快速运动和背景干扰等复杂场景下的局限性。通过预训练一个基于 RGB 数据的视频目标分割基础模型,使用额外的模态信息(如热成像、深度或事件相机数据)作为视觉提示,将基础模型适应到下游的多模态任务中。 X-Prompt优势介绍 多模态适应:X-Prompt 基于多模态视觉提示器(MVP)将额外模态信息…- 1
-
MedRAG – 南洋理工团队推出的医学诊断模型
MedRAG项目简介 MedRAG是南洋理工大学研究团队提出的医学诊断模型,通过结合知识图谱推理增强大语言模型(LLM)的诊断能力。模型构建了四层细粒度诊断知识图谱,可精准分类不同病症表现,通过主动补问机制填补患者信息空白。MedRAG在真实临床数据集上诊断准确率提升了11.32%,具备良好的泛化能力,可应用于不同LLM基模型。MedRAG支持多模态输入,能实时解析症状并生成精准诊断建议。 Med…- 2
-
AutoAgents – AI Agent 生成框架,自然语言创建和部署LLM智能体
AutoAgents项目简介 AutoAgents 是基于大型语言模型(LLM)的自动智能体生成框架,能根据用户设定的目标自动生成多个专家角色的智能体,通过协作完成复杂任务。项目通过智能自动化技术,帮助开发者、数据科学家和企业用户更高效地完成复杂任务。 AutoAgents优势介绍 动态生成智能体:根据任务需求动态生成多个专家角色的智能体,每个智能体具有特定的技能和知识。 任务规划与执行 任务规划…- 0
-
LongLLaVA – 香港中文大学推出的多模态上下文混合架构大语言模型
LongLLaVA项目简介 LongLLaVA是的多模态大型语言模型(MLLM),是香港中文大学(深圳)的研究人员推出。基于混合架构,结合Mamba和Transformer模块,提高处理大量图像数据的效率。LongLLaVA能在单个A100 80GB GPU上处理多达1000张图像,同时保持高性能和低内存消耗。模型基于2D池化技术压缩图像token,显著降低计算成本,保留关键的空间关系信息。Lon…- 0
-
多个办公使用场景:收藏这6款冷门但超好用的AI生产力工具,节后上班效率up up!
马上就要过中秋过国庆了! 真的令人猴开森喔! ?? 节前,分享几款EVA收藏的冷门——但是(敲碗)好用的AI宝藏工具。 针对职场白领打工人各种需求的场景应有尽有,绝对是效率利器?,帮你解决工作当中的各种棘手小问题! 1️⃣Recraft AI:小图标设计神器 这是一个生成式AI绘画工具,适合设计师、营销人员和艺术爱好者。 你只需要输入文字提示,它就能为你生成高质量的ICON矢量图、各式图标、3D图…- 1