-
NEXUS-O – 多模态AI模型,实现对语言、音频和视觉全方位感知与交互
NEXUS-O项目简介 NEXUS-O 是HiThink 研究院、英国帝国理工学院、浙江大学、复旦大学、微软、Meta AI等机构推出的多模态AI模型,能实现对语言、音频和视觉信息的全方位感知与交互。NEXUS-O能处理音频、图像、视频和文本的任意组合输入,用音频或文本形式输出结果。NEXUS-O 基于视觉语言模型预训练,用高质量合成音频数据提升三模态对齐能力。NEXUS-O引入新的音频测试平台 …- 1
-
TryOffDiff – AI虚拟试穿技术,单张穿着者图片生成标准化服装图像
TryOffDiff项目简介 TryOffDiff(VTOFF)是基于扩散模型的新型虚拟试穿技术,用高保真服装重建实现虚拟试穿,专注于从单张穿着者照片生成标准化的服装图像。与传统的Virtual Try-On技术不同,TryOffDiff的目标是从参考图像中提取出规范的服装图像。这一过程面临着捕捉服装形状、纹理和复杂图案的挑战,让TryOffDiff在评估生成模型的重建精度方面特别有效。TryOf…- 2
-
ChatMLX – 高性能MacOS聊天应用,基于MLX框架实现与数据实时交互
ChatMLX项目简介 ChatMLX是一个基于大型语言模型(LLM)的高性能MacOS聊天应用,基于MLX框架实现与数据的交互。应用通过自然语言处理技术,让用户与数据进行对话,支持文本文档、PDF文件和YouTube视频。ChatMLX支持多种语言,包括中文、英语、法语、德语、印地语、意大利语、日语、韩语、西班牙语、土耳其语和越南语,使全球用户方便使用。用Python的包管理器pip安装,安装完…- 2
-
VFusion3D – Meta联合牛津大学推出的AI生成3D模型项目
VFusion3D项目简介 VFusion3D 是由 Meta 和牛津大学的研究人员共同推出的AI生成3D模型项目,能从单张图片或文本描述中生成高质量的3D对象。VFusion3D 通过微调预训练的视频 AI 模型来生成合成的3D数据,解决了3D训练数据稀缺的问题。VFusion3D 能在几秒内从单张图片生成3D模型,用户在测试中对其生成结果的偏好度超过90%,未来会在虚拟现实、游戏开发和数字设计…- 2
-
DreamClear – 中科院联合字节推出的高性能图像修复技术
DreamClear项目简介 DreamClear是中国科学院自动化研究所和字节跳动团队联合推出的高性能图像修复技术,专注于隐私安全的数据集管理,能将低质量(LQ)图像恢复为高质量(HQ)图像。提升了图像的细节和质量,确保数据隐私,符合现代社会对隐私保护的需求。 DreamClear优势介绍 图像恢复:DreamClear能将低质量图像恢复为高质量图像,提升图像的细节和质量。 隐私保护:在进行图像…- 2
-
GLM-4-Voice – 智谱AI推出的端到端情感语音模型
GLM-4-Voice项目简介 GLM-4-Voice是智谱AI推出的端到端情感语音模型,能直接理解和生成中英文语音,支持实时语音对话,能根据用户指令灵活调整语音的情感、语调、语速和方言等特征。模型由三个部分组成:GLM-4-Voice-Tokenizer负责将连续语音转换为离散token,GLM-4-Voice-Decoder将token转换回连续语音输出,GLM-4-Voice-9B基于GLM…- 3
-
Thinking Claude – 17岁高中生推出的神级Prompt工具,AI 思维更接近人类
Thinking Claude项目简介 Thinking Claude是基于深度思考协议和浏览器扩展工具,增强AI模型Claude-3.5的“深度思维”能力的项目,让其思考逻辑更接近人类。支持AI以自然、未经过滤的方式深入思考后再回应,支持思考过程的展开和折叠。Thinking Claude提供更易于阅读和管理的界面,让日常任务中的AI对话更加有趣和富有洞察力。 Thinking Claude优势…- 2
-
Stable Virtual Camera – Stability AI 等机构推出的 AI 模型,2D图像转3D视频
Stable Virtual Camera项目简介 Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能将 2D 图像转换为具有真实深度和透视感的 3D 视频。用户可以通过指定相机轨迹和多种动态路径(如螺旋、推拉变焦、平移等)来生成视频。模型支持从 1 到 32 张输入图像生成不同宽高比(如 1:1、9:16、16:9)的视频,最长可达 1000 帧。 …- 3