全部标签

工具测评

最新随机最多浏览最多喜欢

SpeechGPT 2.0-preview – 复旦大学推出的端到端实时语音交互模型

SpeechGPT 2.0-preview项目简介 SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队推出的拟人化实时交互系统，基于百万小时级中文语音数据训练，采用端到端架构，实现了语音与文本模态的高度融合。模型具有拟人口语化表达、百毫秒级低延迟响应，支持自然流畅的实时打断交互。能精准控制语速、情感、风格和音色，实现智能切换。SpeechGPT 2.0-preview …
工具测评
- 0
7月10日
EasyOCR – 支持超80种语言的开源OCR项目

EasyOCR项目简介 EasyOCR 是一个功能强大的开源OCR（光学字符识别）项目，支持80多种语言和多种书写系统，包括中文、阿拉伯文和西里尔文。基于深度学习技术，提供高精度的文字识别能力。用户可以通过简单的API轻松地将图像中的文本转换为可编辑的文本。EasyOCR易于安装和使用，支持跨平台操作，适用于批量处理图像文件。对图像质量有一定要求，在处理大型图像时速度较慢，不过还是一个用户友好的O…
工具测评
- 1
7月10日
s1 – 斯坦福和华盛顿大学推出低成本、高性能的AI推理模型

s1项目简介 s1是斯坦福大学和华盛顿大学的研究团队开发的低成本、高性能的AI推理模型。模型通过“蒸馏”技术从谷歌的Gemini 2.0 Flash Thinking Experimental模型中提取推理能力。研究人员仅使用1000个精心策划的问题及其答案进行训练，训练成本不到50美元，训练过程耗时不到30分钟。S1模型在数学和编程能力测试中表现优异，与OpenAI的o1和DeepSeek R1…
工具测评
- 0
7月9日
X-Prompt – 用于多模态视频目标分割的通用框架

X-Prompt项目简介 X-Prompt是用于多模态视频目标分割的通用框架，解决传统方法在极端光照、快速运动和背景干扰等复杂场景下的局限性。通过预训练一个基于 RGB 数据的视频目标分割基础模型，使用额外的模态信息（如热成像、深度或事件相机数据）作为视觉提示，将基础模型适应到下游的多模态任务中。 X-Prompt优势介绍多模态适应：X-Prompt 基于多模态视觉提示器（MVP）将额外模态信息…
工具测评
- 1
7月9日
MedRAG – 南洋理工团队推出的医学诊断模型

MedRAG项目简介 MedRAG是南洋理工大学研究团队提出的医学诊断模型，通过结合知识图谱推理增强大语言模型（LLM）的诊断能力。模型构建了四层细粒度诊断知识图谱，可精准分类不同病症表现，通过主动补问机制填补患者信息空白。MedRAG在真实临床数据集上诊断准确率提升了11.32%，具备良好的泛化能力，可应用于不同LLM基模型。MedRAG支持多模态输入，能实时解析症状并生成精准诊断建议。 Med…
工具测评
- 2
7月9日
AutoAgents – AI Agent 生成框架，自然语言创建和部署LLM智能体

AutoAgents项目简介 AutoAgents 是基于大型语言模型（LLM）的自动智能体生成框架，能根据用户设定的目标自动生成多个专家角色的智能体，通过协作完成复杂任务。项目通过智能自动化技术，帮助开发者、数据科学家和企业用户更高效地完成复杂任务。 AutoAgents优势介绍动态生成智能体：根据任务需求动态生成多个专家角色的智能体，每个智能体具有特定的技能和知识。任务规划与执行任务规划…
工具测评
- 0
7月9日
LongLLaVA – 香港中文大学推出的多模态上下文混合架构大语言模型

LongLLaVA项目简介 LongLLaVA是的多模态大型语言模型（MLLM），是香港中文大学（深圳）的研究人员推出。基于混合架构，结合Mamba和Transformer模块，提高处理大量图像数据的效率。LongLLaVA能在单个A100 80GB GPU上处理多达1000张图像，同时保持高性能和低内存消耗。模型基于2D池化技术压缩图像token，显著降低计算成本，保留关键的空间关系信息。Lon…
工具测评
- 0
7月9日
多个办公使用场景：收藏这6款冷门但超好用的AI生产力工具，节后上班效率up up！

马上就要过中秋过国庆了! 真的令人猴开森喔! ?? 节前，分享几款EVA收藏的冷门——但是(敲碗)好用的AI宝藏工具。针对职场白领打工人各种需求的场景应有尽有，绝对是效率利器?，帮你解决工作当中的各种棘手小问题! 1️⃣Recraft AI：小图标设计神器这是一个生成式AI绘画工具，适合设计师、营销人员和艺术爱好者。你只需要输入文字提示，它就能为你生成高质量的ICON矢量图、各式图标、3D图…
工具测评
- 1
7月9日