全部标签

IO

Fish Agent – FishAudio推出的端到端语音处理模型

Fish Agent项目简介 Fish Agent是FishAudio推出的创新的端到端语音处理模型，集成自动语音识别（ASR）和文本到语音（TTS）技术，无需传统的语义编码器/解码器，实现语音到语音的直接转换。模型经过700,000小时的多语言音频内容训练，支持包括英语、中文在内的多种语言，精准捕捉和生成环境音频信息。Fish Agent目前正处于测试阶段，基于不断的优化和改进，为用户提供更准确…
工具测评
- 0
- 0
AI逻界4小时前
VFusion3D – Meta联合牛津大学推出的AI生成3D模型项目

VFusion3D项目简介 VFusion3D 是由 Meta 和牛津大学的研究人员共同推出的AI生成3D模型项目，能从单张图片或文本描述中生成高质量的3D对象。VFusion3D 通过微调预训练的视频 AI 模型来生成合成的3D数据，解决了3D训练数据稀缺的问题。VFusion3D 能在几秒内从单张图片生成3D模型，用户在测试中对其生成结果的偏好度超过90%，未来会在虚拟现实、游戏开发和数字设计…
工具测评
- 1
- 0
AI逻界7月7日
Kimi-Audio – Moonshot AI 开源的音频基础模型

Kimi-Audio项目简介 Kimi-Audio 是 Moonshot AI 推出的开源音频基础模型，专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频数据上进行预训练，具备强大的音频推理和语言理解能力。核心架构采用混合音频输入（连续声学 + 离散语义标记），结合基于 LLM 的设计，支持并行生成文本和音频标记，同时通过分块流式解码器实现低延迟音频生成。 Kimi-Audio优…
工具测评
- 0
- 0
AI逻界7月4日
The Language of Motion – 斯坦福李飞飞团队推出的统一多模态语言模型

The Language of Motion项目简介 The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言模型，能整合人类动作中的言语和非言语语言。模型能处理文本、语音和动作数据，生成对应的目标模态，对于创建自然交流的虚拟角色至关重要。The Language of Motion在共同语音手势生成任务上展现卓越的性能，且相较于传统模型，训练时需要的数据量大大减少。模型…
工具测评
- 1
- 0
AI逻界7月3日
超级简单 0基础教你学会 Stable Diffusion 入门教学安装篇【4】— GNU/Linux系统安装 SD

AI奇点网工具使用教程丨Stable Diffusion 使用教程系列 GNU/Linux系统安装 SD 1.安装显卡驱动重装显卡驱动确认显卡的型号执行命令: Ispci 进入nvidia官网下载对应的驱动：https://www.nvidia.cn/geforce/drivers/ 卸载原驱动代码：sudo apt remove --purge "nvidia-*&quo…
AI教程
- 0
- 0
AI逻界6月30日
Retinex-Diffusion – AI图像照明控制框架，让图像明暗更自然、细腻

Retinex-Diffusion项目简介 Retinex-Diffusion是基于Retinex理论的AI图像照明控制技术，让图像明暗更加自然、细腻、富有层次感。Retinex-Diffusion不需要重新训练模型，通过识别图像中的光照元素并指导图像生成模型，用户可以轻松调整亮度、阴影和光照方向。Retinex-Diffusion能生成具有逼真照明效果的图像，包括投射阴影、软阴影和相互反射，且无…
工具测评
- 0
- 0
AI逻界6月30日
restorePhotos.io – 开源的AI照片修复项目，高质量修复老旧照片

restorePhotos.io 项目简介 restorePhotos.io 是一个开源的AI项目，专注于修复老旧和模糊的人脸照片。用GFPGAN机器学习模型，基于Next.js API路由处理上传的照片，再返回修复后的照片。能在本地运行项目，或基于Vercel平台一键部署。restorePhotos.io 项目由多个服务支持，包括Replicate提供的AI API、Bytescale的存储和图…
工具测评
- 0
- 0
AI逻界6月28日
Gemini Diffusion – 谷歌推出的文本扩散模型

Gemini Diffusion项目简介 Gemini Diffusion是谷歌推出的实验性文本扩散模型。与传统自回归模型逐词生成文本不同，基于逐步细化噪声生成输出，能快速迭代纠正错误，让Gemini Diffusion在文本生成任务中表现出色，具备快速响应、生成更连贯文本和迭代细化等能力。Gemini Diffusion性能在外部基准测试中与更大规模模型相当，速度更快。Gemini Diffus…
工具测评
- 0
- 0
AI逻界6月28日
Step-1o Audio – 阶跃星辰推出的国内首个千亿参数端到端语音大模型

Step-1o Audio项目简介 Step-1o Audio是阶跃星辰推出的国内首个千亿参数端到端语音大模型。具备强大的情绪感知能力，能精准识别用户语气中的情感，结合语境做出贴心回应。如，在用户分享喜悦时，能恰如其分地提问；在用户感到疲惫时，能提供安慰和建议。Step-1o Audio 支持多语种和方言理解，能用四川话等方言自然交流，精准把握语调和词汇。具备个性化风格表达，可根据场景调整语气。 …
工具测评
- 0
- 0
AI逻界6月26日

IO

请输入验证码

....支付确认中....

举报

请选择举报类型*