-
Fish Agent – FishAudio推出的端到端语音处理模型
Fish Agent项目简介 Fish Agent是FishAudio推出的创新的端到端语音处理模型,集成自动语音识别(ASR)和文本到语音(TTS)技术,无需传统的语义编码器/解码器,实现语音到语音的直接转换。模型经过700,000小时的多语言音频内容训练,支持包括英语、中文在内的多种语言,精准捕捉和生成环境音频信息。Fish Agent目前正处于测试阶段,基于不断的优化和改进,为用户提供更准确…- 0
- 0
-
VFusion3D – Meta联合牛津大学推出的AI生成3D模型项目
VFusion3D项目简介 VFusion3D 是由 Meta 和牛津大学的研究人员共同推出的AI生成3D模型项目,能从单张图片或文本描述中生成高质量的3D对象。VFusion3D 通过微调预训练的视频 AI 模型来生成合成的3D数据,解决了3D训练数据稀缺的问题。VFusion3D 能在几秒内从单张图片生成3D模型,用户在测试中对其生成结果的偏好度超过90%,未来会在虚拟现实、游戏开发和数字设计…- 1
- 0
-
Kimi-Audio – Moonshot AI 开源的音频基础模型
Kimi-Audio项目简介 Kimi-Audio 是 Moonshot AI 推出的开源音频基础模型,专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频数据上进行预训练,具备强大的音频推理和语言理解能力。核心架构采用混合音频输入(连续声学 + 离散语义标记),结合基于 LLM 的设计,支持并行生成文本和音频标记,同时通过分块流式解码器实现低延迟音频生成。 Kimi-Audio优…- 0
- 0
-
The Language of Motion – 斯坦福李飞飞团队推出的统一多模态语言模型
The Language of Motion项目简介 The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言模型,能整合人类动作中的言语和非言语语言。模型能处理文本、语音和动作数据,生成对应的目标模态,对于创建自然交流的虚拟角色至关重要。The Language of Motion在共同语音手势生成任务上展现卓越的性能,且相较于传统模型,训练时需要的数据量大大减少。模型…- 1
- 0
-
超级简单 0基础教你学会 Stable Diffusion 入门教学 安装篇 【4】— GNU/Linux系统安装 SD
AI奇点网工具使用教程丨Stable Diffusion 使用教程系列 GNU/Linux系统安装 SD 1.安装显卡驱动 重装显卡驱动 确认显卡的型号执行命令: Ispci 进入nvidia官网下载对应的驱动:https://www.nvidia.cn/geforce/drivers/ 卸载原驱动 代码:sudo apt remove --purge "nvidia-*&quo…- 0
- 0
-
Retinex-Diffusion – AI图像照明控制框架,让图像明暗更自然、细腻
Retinex-Diffusion项目简介 Retinex-Diffusion是基于Retinex理论的AI图像照明控制技术,让图像明暗更加自然、细腻、富有层次感。Retinex-Diffusion不需要重新训练模型,通过识别图像中的光照元素并指导图像生成模型,用户可以轻松调整亮度、阴影和光照方向。Retinex-Diffusion能生成具有逼真照明效果的图像,包括投射阴影、软阴影和相互反射,且无…- 0
- 0
-
restorePhotos.io – 开源的AI照片修复项目,高质量修复老旧照片
restorePhotos.io 项目简介 restorePhotos.io 是一个开源的AI项目,专注于修复老旧和模糊的人脸照片。用GFPGAN机器学习模型,基于Next.js API路由处理上传的照片,再返回修复后的照片。能在本地运行项目,或基于Vercel平台一键部署。restorePhotos.io 项目由多个服务支持,包括Replicate提供的AI API、Bytescale的存储和图…- 0
- 0
-
Gemini Diffusion – 谷歌推出的文本扩散模型
Gemini Diffusion项目简介 Gemini Diffusion是谷歌推出的实验性文本扩散模型。与传统自回归模型逐词生成文本不同,基于逐步细化噪声生成输出,能快速迭代纠正错误,让Gemini Diffusion在文本生成任务中表现出色,具备快速响应、生成更连贯文本和迭代细化等能力。Gemini Diffusion性能在外部基准测试中与更大规模模型相当,速度更快。Gemini Diffus…- 0
- 0
-
Step-1o Audio – 阶跃星辰推出的国内首个千亿参数端到端语音大模型
Step-1o Audio项目简介 Step-1o Audio是阶跃星辰推出的国内首个千亿参数端到端语音大模型。具备强大的情绪感知能力,能精准识别用户语气中的情感,结合语境做出贴心回应。如,在用户分享喜悦时,能恰如其分地提问;在用户感到疲惫时,能提供安慰和建议。Step-1o Audio 支持多语种和方言理解,能用四川话等方言自然交流,精准把握语调和词汇。具备个性化风格表达,可根据场景调整语气。 …- 0
- 0