-
HoloPart – 港大联合 VAST 开源生成完整可编辑部件的 3D 模型
HoloPart项目简介 HoloPart 是香港大学、VAST 团队推出的新型扩散模型,支持将 3D 物体分解为完整、可编辑的语义部件,即使部件被遮挡。HoloPar基于两阶段方法,用局部注意力和全局上下文注意力机制,确保零件的细节和整体形状的一致性。HoloPart 在 ABO 和 PartObjaverse-Tiny 数据集上的表现显著优于现有方法,为几何编辑、材质编辑和动画制作等下游应用提…- 2
-
快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模
什么?疯狂动物城被国产AI搬进现实了? 可灵AI 与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。 它采用了Sora相似的技术路线,结合多项自研技术创新,生成的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。 数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。 另外再划个重点,可灵不是实验室放出的Demo或者…- 4
-
Stable Diffusion最新模型Recolor用AI给老照片上色,修复上世纪老照片
在最近新上线的controlnet模型中,除了我们之前测试过的一众适配sdxl的模型以外,还增加了一款名为Recolor的新模型,它的作用是可以将黑白的图片进行重新上色。 看到这个功能,我首先想到的就是可以用它来修复那些已经年代久远的老照片。毕竟在以前那个年代,没有现在这种可以永远保存的数码拍照技术,很多洗出来的照片也都随着岁月的流逝而褪去了色彩。如果能用AI技术恢复这些往日的时光,也许能唤醒我们…- 0
-
OpenBioMed – 清华AIR联合水木分子推出的开源Agent平台
OpenBioMed项目简介 OpenBioMed 是清华大学智能产业研究院(AIR)和水木分子共同推出的开源平台,专注于 AI 驱动的生物医学研究。是多模态表征学习工具包,能处理分子、蛋白质、单细胞等多种生物医学数据。平台提供 20 多种工具和深度学习模型,如 BioMedGPT 系列,支持从传统药物发现任务到多模态挑战的广泛应用。 OpenBioMed优势介绍 多模态数据支持:支持小分子、蛋白…- 3
-
MMAudio – 基于多模态联合训练实现高质量 AI 音频合成项目
MMAudio项目简介 MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块,确保生成的音频与视频帧精确匹配,实现高度同步。MMAudio适用于多种应用场景,包括影视制作和游戏开发,根据视频内容或文本描述生成相应的音频,提升用户体验。 MMAudio优势介绍 视频到音频合成:根据视频内容生成相应的音频,让视频和音频同步。 …- 2
-
NMT – 阿里联合 UC Berkeley 推出的多任务学习框架
NMT项目简介 NMT(No More Tuning)是UC Berkeley和阿里巴巴集团联合推出的多任务学习框架,能解决多任务学习中不同任务优先级优化的问题。NMT将多任务学习问题转化为约束优化问题,将高优先级任务的性能作为约束条件,在优化低优先级任务时保持高优先级任务的性能。NMT基于拉格朗日微分乘数法,将约束问题转化为无约束问题,并用梯度下降法求解,避免传统方法中复杂的超参数调整过程。NM…- 1
-
Ruyi – 图森未来推出的图生视频大模型
Ruyi项目简介 Ruyi是图森未来推出的图生视频大模型,专为在消费级显卡上运行设计,支持多分辨率、多时长视频生成,具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构,由Casual VAE模块和Diffusion Transformer组成,用在视频数据压缩和生成。Ruyi能降低动漫和游戏内容的开发周期和成本,是ACG爱好者和创作者的理想工具。目前图森未来将Ruyi-Mi…- 3
-
Whisper Input – 开源AI语音输入工具,支持多语言实时转录和翻译
Whisper Input项目简介 Whisper Input 是开源的语音输入工具,基于 Python 和 OpenAI 的 Whisper 模型开发。通过简单的快捷键操作(如按下 Option 键开始录音,松开结束录音),实现语音的实时转录和翻译。项目支持多语言语音输入,可将中文翻译为英文,适合多种语言环境的用户。 Whisper Input优势介绍 实时语音转录:通过简单的快捷键操作(如按下…- 0