-
X-Prompt – 用于多模态视频目标分割的通用框架
X-Prompt项目简介 X-Prompt是用于多模态视频目标分割的通用框架,解决传统方法在极端光照、快速运动和背景干扰等复杂场景下的局限性。通过预训练一个基于 RGB 数据的视频目标分割基础模型,使用额外的模态信息(如热成像、深度或事件相机数据)作为视觉提示,将基础模型适应到下游的多模态任务中。 X-Prompt优势介绍 多模态适应:X-Prompt 基于多模态视觉提示器(MVP)将额外模态信息…- 1
-
MedRAG – 南洋理工团队推出的医学诊断模型
MedRAG项目简介 MedRAG是南洋理工大学研究团队提出的医学诊断模型,通过结合知识图谱推理增强大语言模型(LLM)的诊断能力。模型构建了四层细粒度诊断知识图谱,可精准分类不同病症表现,通过主动补问机制填补患者信息空白。MedRAG在真实临床数据集上诊断准确率提升了11.32%,具备良好的泛化能力,可应用于不同LLM基模型。MedRAG支持多模态输入,能实时解析症状并生成精准诊断建议。 Med…- 2
-
AutoAgents – AI Agent 生成框架,自然语言创建和部署LLM智能体
AutoAgents项目简介 AutoAgents 是基于大型语言模型(LLM)的自动智能体生成框架,能根据用户设定的目标自动生成多个专家角色的智能体,通过协作完成复杂任务。项目通过智能自动化技术,帮助开发者、数据科学家和企业用户更高效地完成复杂任务。 AutoAgents优势介绍 动态生成智能体:根据任务需求动态生成多个专家角色的智能体,每个智能体具有特定的技能和知识。 任务规划与执行 任务规划…- 0
-
LongLLaVA – 香港中文大学推出的多模态上下文混合架构大语言模型
LongLLaVA项目简介 LongLLaVA是的多模态大型语言模型(MLLM),是香港中文大学(深圳)的研究人员推出。基于混合架构,结合Mamba和Transformer模块,提高处理大量图像数据的效率。LongLLaVA能在单个A100 80GB GPU上处理多达1000张图像,同时保持高性能和低内存消耗。模型基于2D池化技术压缩图像token,显著降低计算成本,保留关键的空间关系信息。Lon…- 0
-
多个办公使用场景:收藏这6款冷门但超好用的AI生产力工具,节后上班效率up up!
马上就要过中秋过国庆了! 真的令人猴开森喔! ?? 节前,分享几款EVA收藏的冷门——但是(敲碗)好用的AI宝藏工具。 针对职场白领打工人各种需求的场景应有尽有,绝对是效率利器?,帮你解决工作当中的各种棘手小问题! 1️⃣Recraft AI:小图标设计神器 这是一个生成式AI绘画工具,适合设计师、营销人员和艺术爱好者。 你只需要输入文字提示,它就能为你生成高质量的ICON矢量图、各式图标、3D图…- 1
-
FlexIP – 腾讯推出的个性化图像生成编辑框架
FlexIP项目简介 FlexIP 是腾讯提出的面向图像合成的灵活主体属性编辑框架,平衡图像生成中的身份保持和个性化编辑。框架采用双适配器架构,将身份保持与个性化编辑解耦,通过高层语义概念与低层空间细节确保身份完整性。动态权重门控机制支持用户在身份保留和风格个性化之间进行灵活的参数化控制,将传统的二元权衡转变为连续的控制曲面。FlexIP 结合了多模态数据训练策略,基于图像和视频数据分别优化适配器…- 1
-
OpenUtau – 开源的AI歌声合成工具,自动适配系统语言
OpenUtau项目简介 OpenUtau 是开源的歌声合成工具,兼容 UTAU 音源库和重采样器,支持 VSQX 导入、多语言界面及预渲染功能,帮助创作者快速预览作品节省时间。OpenUtau现代化的界面和丰富的编辑功能,如音素器、颤音编辑器等,让音乐创作更加直观高效。OpenUtau 支持 Windows、macOS 和 Linux 系统,开箱即用,适合音乐创作者和歌声合成爱好者。 OpenU…- 2
-
FlagevalMM – 智源开源的多模态模型评测框架
FlagevalMM项目简介 FlagEvalMM是北京智源人工智能研究院开源的多模态模型评测框架,能全面评估处理文本、图像、视频等多种模态的模型,支持多种任务和指标。框架采用评测与模型推理解耦的设计,统一视觉语言模型、文生图、文生视频和图文检索等多种模型的评测流程,提升评测效率,便于快速适配新任务和模型。 FlagEvalMM优势介绍 多模态模型支持:支持评估多种类型的多模态模型,包括视觉问答(…- 0