-
FlexRAG – 中科院推出的高性能多模态 RAG 框架
FlexRAG项目简介 FlexRAG 是创新的检索增强生成(RAG)框架,解决传统 RAG 系统在处理长上下文时面临的计算成本高和生成质量不足的问题。通过将检索到的上下文信息压缩成紧凑的嵌入表示,显著降低计算负担。FlexRAG 的核心组件包括压缩编码器和选择性压缩机制,前者负责将长上下文转化为固定尺寸的嵌入,后者则通过评估信息的重要性来选择性地保留关键信息。提高生成模型的表现,支持灵活的压缩比…- 0
-
Voyage Multimodal-3 – Voyage AI 推出的多模态嵌入模型
Voyage Multimodal-3项目简介 Voyage Multimodal-3 是 Voyage AI 推出的先进的多模态嵌入模型,能处理交错的文本和图像,并从 PDF、幻灯片、表格等截图中捕捉关键视觉特征,无需复杂文档解析。Voyage Multimodal-3模型在多模态检索任务中表现出色,平均检索准确率比现有最佳模型高出19.63%,支持文本和内容丰富的图像,具有类似现代视觉-语言转…- 0
-
VideoChat-Flash – 上海 AI Lab 等机构推出针对长视频建模的多模态大模型
VideoChat-Flash项目简介 VideoChat-Flash 是上海人工智能实验室和南京大学等机构联合开发的针对长视频建模的多模态大语言模型(MLLM),模型通过分层压缩技术(HiCo)高效处理长视频,显著减少计算量,同时保留关键信息。采用多阶段从短到长的学习方案,结合真实世界长视频数据集 LongVid,进一步提升对长视频的理解能力。 VideoChat-Flash优势介绍 长视频理解…- 0
-
TIGER – 清华大学推出的轻量级语音分离模型
TIGER项目简介 TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction Network)是清华大学研究团队提出的轻量级语音分离模型,通过时频交叉建模策略,结合频带切分和多尺度注意力机制,显著提升了语音分离的效果,降低了参数量和计算量。 TIGER 的核心在于创新的时频交叉建模模块(FFI),能高效整合时间和频率信息…- 0
-
MegaTTS 3 – 字节与浙江大学合作推出的零样本语音合成系统
MegaTTS 3项目简介 MegaTTS 3是字节跳动与浙江大学合作推出的零样本文本到语音合成系统,采用轻量级扩散模型,参数量仅0.45B,能高效生成高质量语音。系统将语音分解为内容、音色、韵律等属性分别建模,支持中文、英文及中英混合语音合成,具备超高音质的语音克隆能力,几秒音频样本能模仿目标声音。支持口音强度控制等可控性功能。MegaTTS 3可应用于语音合成、语音编辑、跨语言语音合成等多个场…- 2
-
Augmented Physics – 将教科书静态图表生成交互式物理模拟的AI技术
Augmented Physics项目简介 Augmented Physics是一个创新的教育工具,基于集成机器学习技术,将物理教科书中的静态图表转换成互动式和嵌入式的物理模拟。工具基于先进的计算机视觉技术,比如Segment Anything和多模态大型语言模型(LLM),让用户能半自动地从教科书中提取图表,生成可交互的仿真。学生能基于实际操作探索和理解物理概念,如光学、运动学和电路等。Augm…- 0
-
Vibe Draw – AI 3D建模工具,涂鸦草图一键转为3D模型
Vibe Draw项目简介 Vibe Draw是开源的 AI 3D建模工具,支持将用户在2D画布上绘制的涂鸦草图转化为精美的3D模型。用户能用文本提示或继续绘制迭代优化模型,一键导出为标准格式(.glTF)。Vibe Draw打破技术门槛,让任何人无需专业技能轻松实现3D创意。Vibe Draw前端基于Next.js、React和Three.js等技术,后端基于FastAPI和Celery构建,支…- 0
-
restorePhotos.io – 开源的AI照片修复项目,高质量修复老旧照片
restorePhotos.io 项目简介 restorePhotos.io 是一个开源的AI项目,专注于修复老旧和模糊的人脸照片。用GFPGAN机器学习模型,基于Next.js API路由处理上传的照片,再返回修复后的照片。能在本地运行项目,或基于Vercel平台一键部署。restorePhotos.io 项目由多个服务支持,包括Replicate提供的AI API、Bytescale的存储和图…- 0