-
Cline – AI编程助手,集成于 VSCode 实时检查语法错误
Cline项目简介 Cline 是集成于 VSCode 的 AI 编程助手,通过智能化手段提升开发效率。具备强大的代码生成与编辑能力,能根据用户需求快速创建或修改代码文件,实时检查语法错误。Cline 支持在终端执行命令,帮助开发者完成诸如安装依赖、运行脚本等操作。 对于 Web 开发,Cline 可以通过无头浏览器启动网站,进行交互操作并捕获日志,助力调试和优化。支持多语言模型,根据需求选择免费…- 6
-
豆包PixelDance – 字节跳动推出的AI视频生成大模型,基于DiT结构
豆包PixelDance项目简介 豆包PixelDance是字节跳动最新推出的AI视频生成模型,采用DiT结构,支持文生视频和图生视频。它能理解复杂指令,生成长达10秒的连贯视频片段,涵盖多主体交互和时序性动作。豆包PixelDance模型具备卓越的语义理解力和丰富的运镜效果,能一键生成具有故事性的多镜头短片。豆包PixelDance支持多种风格和视频比例,适用于影视、广告、短视频等多种场景,极大…- 3
-
DiffEditor – 北大联合腾讯推出的细粒度图像编辑工具
DiffEditor项目简介 DiffEditor是北京大学深圳研究生院与腾讯PCG的研究团队提出的基于扩散模型(Diffusion Model)的图像编辑工具,通过引入图像提示(image prompts)和文本提示,结合区域随机微分方程(Regional SDE)和时间旅行策略,显著提升了图像编辑的准确性和灵活性。DiffEditor支持多种编辑任务,包括单图像内的对象移动、调整大小和内容拖动…- 1
-
OmniBooth – 华为诺亚方舟联合港科大推出的图像生成框架
OmniBooth项目简介 OmniBooth是华为诺亚方舟实验室和港科大研究团队共同推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。框架用用户定义的掩码和相关联的文本或图像指导精确控制图像中对象的位置和属性,提升文本到图像合成技术的可控性和实用性。OmniBooth的核心在于创新的潜在控制信号,一种高维空间特征,能无缝整合空间、文本和图像条件,实现细粒度的图像合成控制。 …- 2
-
xLAM – Salesforce开源的AI大模型,专注函数调用功能
xLAM项目简介 xLAM 是 Salesforce 开源的一款大型语言模型,专为功能调用任务设计。模型能理解和执行基于自然语言指令的 API 调用,在自动化任务和与各种数字服务交互方面非常有用。xLAM模型在 Berkeley Function-Calling Leaderboard (BFCL) 上的测试中表现出色。 xLAM优势介绍 多语言支持:xLAM 支持多种语言,能理解和处理不同语言的…- 1
-
AI优质短片创作案例用王家卫的方式,回顾“平凡”的2023年
作者平凡的生活回顾了2023年发生的种种事情,包括城市变化、个人经历、科技发展等。 00:092023年城市生活:描述了作者在2023年观察到的城市生活场景和自己的感受。 01:10普通人的触动: 讲述了一个普通人在2023年遇到的一些让人触动的事情。 02:27人们的选择:探讨了人们在2023年面临的选择和挑战,以及作者自己的看法。- 2
-
Pippo – Meta 推出的单图生成多视角高清人像视频模型
Pippo项目简介 Pippo是Meta Reality Labs推出的图像到视频生成模型,能从单张照片生成1K分辨率的多视角高清人像视频。模型基于多视角扩散变换器,预训练了30亿张人像图像,在2500张工作室捕捉的图像上进行了后训练。Pippo的核心技术包括ControlMLP模块,用于注入像素对齐的条件,以及注意力偏差技术,能在推理时生成比训练时多5倍以上的视角。Pippo引入了重投影误差,用…- 1
-
MagicMan – 腾讯联合多所高校推出2D图像生成3D人类模型的AI项目
MagicMan项目简介 MagicMan 是清华大学深圳国际研究生院、腾讯AI实验室、香港科技大学、斯坦福大学和香港中文大学的研究团队共同推出的AI项目,专注于基于深度学习技术从单张2D图像生成高质量的3D人类模型。结合预训练的2D扩散模型和参数化的SMPL-X模型,通过混合多视角注意力机制和迭代细化策略,实现精确的3D感知和图像生成。在游戏、电影、虚拟现实等多个领域具有广泛的应用潜力。 Mag…- 0