-
ComfyUI-MochiEdit – 开源的AI视频编辑工具,支持视频转视频和局部编辑
ComfyUI-MochiEdit项目简介 ComfyUI-MochiEdit是基于ComfyUI和Genmo Mochi的开源视频编辑工具,基于将视频转换为噪声、重新采样实现视频编辑,支持局部编辑和视频转视频功能。用户能调整噪声校正强度、对齐强度等参数控制视频效果,与ComfyUI-MochiWrapper节点结合使用,实现更复杂的编辑需求。ComfyUI-MochiEdit安装简便,无需额外依…- 0
-
AI Dev Gallery – 微软推出面向Windows开发者本地运行AI模型的开源工具
AI Dev Gallery项目简介 AI Dev Gallery是微软推出的开源AI工具包和示例库,集成在Visual Studio中,帮助Windows开发者轻松集成端侧AI功能。AI Dev Gallery提供超过25个交互式示例,覆盖文本、图像、音频和视频等场景,支持从GitHub和Hugging Face下载热门的开源模型,支持在本地设备上运行,实现低延迟、高隐私的AI体验。每个示例都配…- 0
-
PersonaMagic – 高保真人脸定制技术,根据肖像无缝生成新角色
PersonaMagic项目简介 PersonaMagic 是创新的高保真人脸定制技术,通过阶段调节的文本条件策略实现个性化图像生成。基于简单多层感知机(MLP)网络学习一系列动态嵌入,在特定时间步间隔内准确捕获人脸概念。PersonaMagic 引入了双平衡机制(Tandem Equilibrium),在文本编码器中调整自注意力响应,有效平衡文本描述与身份保持之间的关系,提升生成图像的准确性和一…- 2
-
AI-Infra-Guard – 腾讯开源的 AI 基础设施安全评估工具
AI-Infra-Guard项目简介 AI-Infra-Guard是腾讯开源的高效、轻量级易于使用的 AI 基础设施安全评估工具,能发现和检测 AI 系统中的潜在安全风险。AI-Infra-Guard支持 28 种 AI 框架指纹识别,涵盖 200 多个安全漏洞数据库,支持快速扫描、识别漏洞。工具开箱即用,无需复杂配置,提供灵活的 YAML 规则定义和匹配语法。AI-Infra-Guard核心组件…- 2
-
Seed-TTS – 字节跳动推出的高质量文本到语音生成模型
Seed-TTS项目简介 Seed-TTS是由字节跳动开发的高级文本到语音(Text to Speech,TTS)模型,能够生成与人类语音极为相似的高质量语音,具备出色的上下文学习能力和自然度。Seed-TTS支持对情感、语调、说话风格等语音属性的精细控制,适用于有声读物、视频配音等多种场景。此外,该模型还具备零样本学习能力,即使在没有训练数据的情况下也能生成高质量语音,并且支持内容编辑和多语种翻…- 1
-
FlipSketch – 萨里大学推出的文本引导生成无约束草图动画的AI系统
FlipSketch项目简介 FlipSketch 是萨里大学推出的创新系统,能将静态绘图转变为文本引导的草图动画。技术基于三个关键创新实现:微调草图风格的帧生成、用噪声细化保持输入草图视觉完整性的参考帧机制,及在不失去视觉一致性的情况下实现流畅运动的双注意力合成。与传统矢量动画不同,FlipSketch 支持动态草图变换,捕捉传统动画的自由表现力,让草图动画制作变得简单直观,同时保持手绘动画的艺…- 1
-
AI视频优质创作案例AI数字人卡夫卡对话卓别林聊聊“加速”和“效率”对社会产生的影响
在加速社会中,人们无法等待一杯咖啡的原因。加速社会导致了社会效率的盲目崇拜和时间稀缺的出现,人们变得易怒和麻木暴力。同时,加速社会也让人们失去了自己的目的,成为机器上的齿轮,专为效率而存在。效率变成了精英地位的象征,加速社会把时间变成了病态规范。然而,人们需要平衡效率和道德,公平和效率,目的和手段的关系。 加速社会对人类的影响,包括时间稀缺、效率崇拜、孤独等问题,并提出了缓行的必要性。 00:01…- 1
-
Embodied Reasoner – 浙大联合阿里等机构推出的具身交互推理模型
Embodied Reasoner项目简介 Embodied Reasoner是浙江大学、中国科学院软件研究所、阿里巴巴集团等机构推出的新型的具身交互推理模型,基于视觉搜索、推理和行动协同完成复杂任务。模型基于模仿学习、自我探索和自我修正的三阶段训练方法,生成多样化的思考过程(如情境分析、空间推理、自我反思等),基于交互历史和空间布局进行高效规划和推理。在AI2-THOR模拟器的多种任务中,Emb…- 0