-
Red_Panda – Recraft推出的AI图像生成模型
Red_Panda项目简介 Red_Panda 是 Recraft V3 在发布初期使用的化名,是Recraft AI推出的先进AI图像生成模型,以卓越的性能在图像生成领域树立新标准。在Hugging Face的Text-to-Image Benchmark中以1172的ELO评分领先,超越Midjourney和OpenAI等竞争对手。Red_Panda擅长文本生成,能处理长文本,生成具有高解剖学…- 0
-
Buzz – 免费开源的AI语音转文字工具
Buzz项目简介 Buzz是一款基于OpenAI Whisper模型构建的离线语音转文字工具,适用于Windows、macOS和Linux系统。Buzz能将麦克风输入或音频、视频文件实时转换为文字,支持多种格式导入导出,如TXT、SRT和VTT。Buzz的转换速度快,准确率高,支持多语言识别,并能将结果翻译成英文。 Buzz优势介绍 实时语音转文字:Buzz可以将麦克风捕捉到的语音实时转换为文本,…- 6
-
IterComp – 清北、牛津等多所高校联合推出的文本到图像生成框架
IterComp项目简介 IterComp是一个由清华大学、北京大学、LibAI Lab、中国科学技术大学、牛津大学和普林斯顿大学的研究人员联合推出的文本到图像生成框架。基于迭代反馈学习机制,聚合多个扩散模型的组合生成偏好,全面提升模型在处理复杂组合任务时的综合能力。IterComp首先构建一个包含多个开源模型的图库,模型在属性绑定、空间关系和非空间关系等不同方面表现出各自的优势,基于模型的偏好训…- 4
-
ComfyUI-MochiEdit – 开源的AI视频编辑工具,支持视频转视频和局部编辑
ComfyUI-MochiEdit项目简介 ComfyUI-MochiEdit是基于ComfyUI和Genmo Mochi的开源视频编辑工具,基于将视频转换为噪声、重新采样实现视频编辑,支持局部编辑和视频转视频功能。用户能调整噪声校正强度、对齐强度等参数控制视频效果,与ComfyUI-MochiWrapper节点结合使用,实现更复杂的编辑需求。ComfyUI-MochiEdit安装简便,无需额外依…- 0
-
node-DeepResearch – Deep Research开源复现版 AI Agent,支持多步推理和复杂查询
node-DeepResearch项目简介 node-DeepResearch 是开源的 AI 智能体项目,基于持续搜索和阅读网页,用 Gemini 语言模型和 Jina Reader 工具,逐步推理、回答复杂问题,直到找到答案或超出 token 预算。项目支持多步推理和复杂查询,能处理从简单问题到多步推理的复杂任务。node-DeepResearch提供 Web Server API,方便用户基…- 2
-
Mochi 1 – Genmo推出的开源高质量AI视频生成模型
Mochi 1项目简介 Mochi 1是Genmo公司推出的开源AI视频生成模型,在动作质量和遵循用户提示方面表现出色。Mochi 1基于Apache 2.0许可证发布,支持个人和商业用途的免费使用。模型目前提供480p的基础版本,计划在年底前推出支持720p的高清版本Mochi 1 HD,提供更高保真度和更流畅的动作。Mochi 1的模型权重和架构在Hugging Face平台上找到,Genmo…- 2
-
Wav2Lip – 开源的唇形同步工具
Wav2Lip项目简介 Wav2Lip是开源的唇形同步工具,支持用户将音频文件转换成与口型同步的视频,广泛应用于视频编辑和游戏开发等领域。Wav2Lip不仅能够实现实时口型生成,还支持多种语言,适用于不同场景下的需求。无论是提升电影和视频的后期制作质量,还是增强虚拟现实中的交互体验,Wav2Lip都能发挥重要作用。 Wav2Lip的功能特色 音频驱动口型:根据输入的音频信号,自动生成与语音同步的口…- 1
-
DreamVideo-2 – 复旦和阿里联合多机构推出的零样本视频定制生成框架
DreamVideo-2项目简介 DreamVideo-2是创新的零样本视频定制框架,复旦大学和阿里巴巴集团等机构联合推出。DreamVideo-2能根据单一图像和界定框序列生成具有特定主题和精确运动轨迹的视频,无需在测试时进行微调。框架用参考注意力机制学习主题外观,基于从界定框导出的二值掩码控制运动轨迹,实现精确的运动控制。DreamVideo-2引入混合掩码参考注意力和重加权扩散损失,增强主题…- 0