-
VideoChat-Flash – 上海 AI Lab 等机构推出针对长视频建模的多模态大模型
VideoChat-Flash项目简介 VideoChat-Flash 是上海人工智能实验室和南京大学等机构联合开发的针对长视频建模的多模态大语言模型(MLLM),模型通过分层压缩技术(HiCo)高效处理长视频,显著减少计算量,同时保留关键信息。采用多阶段从短到长的学习方案,结合真实世界长视频数据集 LongVid,进一步提升对长视频的理解能力。 VideoChat-Flash优势介绍 长视频理解…- 0
-
TIGER – 清华大学推出的轻量级语音分离模型
TIGER项目简介 TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction Network)是清华大学研究团队提出的轻量级语音分离模型,通过时频交叉建模策略,结合频带切分和多尺度注意力机制,显著提升了语音分离的效果,降低了参数量和计算量。 TIGER 的核心在于创新的时频交叉建模模块(FFI),能高效整合时间和频率信息…- 0
-
MegaTTS 3 – 字节与浙江大学合作推出的零样本语音合成系统
MegaTTS 3项目简介 MegaTTS 3是字节跳动与浙江大学合作推出的零样本文本到语音合成系统,采用轻量级扩散模型,参数量仅0.45B,能高效生成高质量语音。系统将语音分解为内容、音色、韵律等属性分别建模,支持中文、英文及中英混合语音合成,具备超高音质的语音克隆能力,几秒音频样本能模仿目标声音。支持口音强度控制等可控性功能。MegaTTS 3可应用于语音合成、语音编辑、跨语言语音合成等多个场…- 2
-
Augmented Physics – 将教科书静态图表生成交互式物理模拟的AI技术
Augmented Physics项目简介 Augmented Physics是一个创新的教育工具,基于集成机器学习技术,将物理教科书中的静态图表转换成互动式和嵌入式的物理模拟。工具基于先进的计算机视觉技术,比如Segment Anything和多模态大型语言模型(LLM),让用户能半自动地从教科书中提取图表,生成可交互的仿真。学生能基于实际操作探索和理解物理概念,如光学、运动学和电路等。Augm…- 0
-
Vibe Draw – AI 3D建模工具,涂鸦草图一键转为3D模型
Vibe Draw项目简介 Vibe Draw是开源的 AI 3D建模工具,支持将用户在2D画布上绘制的涂鸦草图转化为精美的3D模型。用户能用文本提示或继续绘制迭代优化模型,一键导出为标准格式(.glTF)。Vibe Draw打破技术门槛,让任何人无需专业技能轻松实现3D创意。Vibe Draw前端基于Next.js、React和Three.js等技术,后端基于FastAPI和Celery构建,支…- 0
-
restorePhotos.io – 开源的AI照片修复项目,高质量修复老旧照片
restorePhotos.io 项目简介 restorePhotos.io 是一个开源的AI项目,专注于修复老旧和模糊的人脸照片。用GFPGAN机器学习模型,基于Next.js API路由处理上传的照片,再返回修复后的照片。能在本地运行项目,或基于Vercel平台一键部署。restorePhotos.io 项目由多个服务支持,包括Replicate提供的AI API、Bytescale的存储和图…- 0
-
LongRAG – 智谱联合清华和中科院推出的双视角鲁棒检索框架
LongRAG项目简介 LongRAG是清华大学、中国科学院和智谱的研究团队推出的,面向长文本问答(LCQA)的双视角鲁棒检索增强生成(RAG)框架。基于混合检索器、LLM增强信息提取器、CoT引导过滤器和LLM增强生成器四个组件,有效解决长文本问答中的全局上下文理解和事实细节识别难题。LongRAG在多个数据集上超越长上下文LLM、高级RAG系统和Vanilla RAG等基线模型,展现出卓越的性…- 0
-
超多细节,尽显大宋盛世!Stable Diffusion写实风复刻《清明上河图》,AI绘画技术实现风格迁移实战
AI绘画工具:Stable Diffusion 工具介绍:Stable Diffusion 是一种基于扩散过程的图像生成模型,可以生成高质量、高分辨率的图像。它通过模拟扩散过程,将噪声图像逐渐转化为目标图像。这种模型具有较强的稳定性和可控性,可以生成具有多样化效果和良好视觉效果的图像。 工具链接:https://www.aieva.cn/sites/411.html AI绘画技术越来越发达,超乎想…- 0