-
story-flicks – AI视频生成工具,一键生成高清故事短视频
story-flicks项目简介 story-flicks 是基于AI大模型的项目,支持一键生成高清故事短视频。用户输入故事主题后,系统基于AI技术生成包含图像、文本、音频和字幕的短视频。story-flicks 项目支持多种模型提供商,如OpenAI、阿里云等,用户根据需求选择不同的文本和图像生成模型。生成的视频长度取决于用户设置的故事片段数量。story-flicks 基于灵活的配置和一键生成…- 0
-
SWE-Kit – 构建自定义软件工程AI代理的开源框架
SWE-Kit项目简介 SWE-Kit 是Composio 推出的开源框架, 简化软件工程 AI 代理的开发过程。SWE-Kit提供无头 IDE 环境和 AI 原生工具,用于构建自定义编码代理,支持与多种代理框架和大型语言模型集成,降低构建复杂 AI 代理的门槛。SWE-Kit 集成文件操作、代码分析、shell 命令执行等功能,提高开发效率、提供高度的可定制性,是现代 AI 辅助软件开发的领先工…- 2
-
SVFR – 腾讯优图联合厦门大学推出的通用视频人脸修复统一框架
SVFR项目简介 SVFR(Stable Video Face Restoration)是腾讯优图实验室和厦门大学联合推出的用于广义视频人脸修复的统一框架,整合了视频人脸修复(BFR)、着色和修复任务,基于Stable Video Diffusion(SVD)的生成和运动先验,通过统一的人脸修复框架整合特定于任务的信息。SVFR引入了可学习的任务嵌入以增强任务识别,同时采用了一种新颖的统一潜在正则…- 0
-
豆包1.5·UI-TARS – 字节豆包推出的 GUI Agent 模型
豆包1.5·UI-TARS项目简介 豆包1.5·UI-TARS是字节豆包推出的面向图形界面交互(GUI)的Agent模型。模型基于感知、推理和动作执行等类人能力,与图形界面进行连续、流畅的交互。模型将视觉理解、逻辑推理、界面元素定位和操作整合在单一模型中,无需预定义工作流程或人工规则,实现端到端的任务自动化。豆包1.5·UI-TARS 已在火山方舟平台上线。 豆包1.5·UI-TARS优势介绍 图…- 2
-
瑞智病理大模型 – 瑞金联合华为推出的多模态互动式病理大模型
瑞智病理大模型项目简介 瑞智病理大模型(RuiPath)是上海交通大学医学院附属瑞金医院与华为共同推出的临床级国产多模态互动式病理大模型。模型覆盖了中国每年全癌种发病人数90%的常见癌种,包含垂体神经内分泌肿瘤等罕见病。通过多模态数据融合(图像、文本等),涵盖临床、影像、病理等多个领域,数据维度广泛且标签完备,能精准反映疾病特征。 瑞智病理大模型优势介绍 多模态数据融合:RuiPath整合了图像、…- 3
-
Seed1.5-VL – 字节跳动Seed推出的视觉语言多模态大模型
Seed1.5-VL项目简介 Seed1.5-VL 是字节跳动 Seed 团队最新发布的视觉-语言多模态大模型,具备强大的通用多模态理解和推理能力,推理成本显著降低。模型由一个 532M 参数的视觉编码器和一个 20B 活动参数的混合专家(MoE)LLM 组成。在 60 个公开评测基准中的 38 个上取得了最佳表现,在交互式代理任务中也优于 OpenAI CUA 和 Claude 3.7 等领先的…- 2
-
Phantom – 字节跳动推出的主体一致视频生成框架
Phantom项目简介 Phantom是字节跳动智能创作团队推出的用在主体一致视频生成(Subject-to-Video, S2V)的框架。基于跨模态对齐技术,结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述一致的视频内容。Phantom基于现有的文本到视频(T2V)和图像到视频(I2V)架构,重新设计了联合文本-图像注入模型,基于文本-图像-视频三元组数据学习跨模态对齐。Phanto…- 2
-
Hallo – 复旦百度等开源的AI对口型肖像视频生成框架
Hallo项目简介 Hallo是由复旦大学、百度公司、苏黎世联邦理工学院和南京大学的研究人员共同提出的一个AI对口型肖像图像动画技术,可基于语音音频输入来驱动生成逼真且动态的肖像图像视频。该框架采用了基于扩散的生成模型和分层音频驱动视觉合成模块,提高了音频与视觉输出之间的同步精度。Hallo的网络架构整合了UNet去噪器、时间对齐技术和参考网络,以增强动画的质量和真实感,不仅提升了图像和视频的质量…- 0