-
CAVIA – 苹果、得克萨斯、谷歌联合推出的多视角视频生成框架
CAVIA项目简介 CAVIA是苹果公司、得克萨斯大学奥斯汀分校、谷歌联合推出的多视角视频生成框架,能将单一输入图像转换成多个时空一致的视频序列。框架基于引入视角集成注意力模块,增强视频的视角一致性和时间连贯性,支持用户精确控制相机运动,同时保留对象运动。CAVIA的设计灵活性使其能与多种数据源联合训练,显著提升视频的几何一致性和感知质量,在虚拟现实、增强现实和电影制作等领域具有应用潜力。 CAV…- 2
-
Retinex-Diffusion – AI图像照明控制框架,让图像明暗更自然、细腻
Retinex-Diffusion项目简介 Retinex-Diffusion是基于Retinex理论的AI图像照明控制技术,让图像明暗更加自然、细腻、富有层次感。Retinex-Diffusion不需要重新训练模型,通过识别图像中的光照元素并指导图像生成模型,用户可以轻松调整亮度、阴影和光照方向。Retinex-Diffusion能生成具有逼真照明效果的图像,包括投射阴影、软阴影和相互反射,且无…- 0
-
超强AI音频生成图像工具「Music To Image」体验测评:我让AI听完周杰伦的歌,它还把歌里的故事画了出来
AI音频生成图像工具: 工具介绍:「音生图」应用,只要上传一段音乐,它就能根据音乐旋律和歌词,生成一张对应意境的图片。将音频上传到模型,自动将音频生成文本描述,然后使用Llama2大模型将其转换为说明性的图像描述,最后运行Stable Diffusion XL以从音频生成图像! 工具链接:https://www.aieva.cn/sites/1303.html 2023年AIGC的浪潮奔涌而来,让…- 1
-
aisuite – 吴恩达发布开源Python库,一个接口调用多个大模型
aisuite项目简介 aisuite是开源的Python库,吴恩达(Andrew Ng)发布的,旨在提供一个统一的接口来调用多个大型语言模型(LLM)服务。支持包括OpenAI、Anthropic、Azure等在内的11个模型平台,开发者能轻松切换和测试不同提供商的模型。通过aisuite,用户可以便捷地获取API密钥并设置环境变量,实现对不同语言模型的访问和调用。简化了多模型管理和测试的工作,…- 0
-
n8n – 开源工作流自动化平台,支持400多个应用程序、拖放创建复杂工作流
n8n项目简介 n8n是开源的自动化工作流管理系统,提供一个低代码平台,支持用户用拖放的方式创建复杂的工作流,无需编写代码。n8n支持400多个应用程序和服务的集成,包括AI组件,让自动化各种业务流程变得简单。n8n基于Docker容器化部署,易于扩展和维护,适用于数据同步、客户关系管理、IT自动化等多种业务场景。n8n以灵活性、易用性和强大的集成能力,帮助企业提高效率和生产力。 n8n优势介绍 …- 1
-
LongCite – 清华推出的开源模型,提升LLMs的精准引用减少幻觉
LongCite项目简介 LongCite是由清华大学推出的项目,旨在提升大型语言模型(LLMs)在长文本问答任务中的可信度和可验证性。项目通过生成细粒度的句子级引用,使用户能验证模型的回答是否准确。核心组成部分包括LongBench-Cite评估基准、CoF自动化数据构建流程、LongCite-45k数据集,以及基于该数据集训练的LongCite-8B和LongCite-9B模型。模型能理解长文…- 2
-
CodeDPO – 北京大学联合字节共同推出的代码生成优化框架
CodeDPO项目简介 CodeDPO是北京大学与字节跳动合作推出的代码生成优化框架,能提升代码模型在正确性和效率方面的表现。框架基于自生成和验证机制,同时构建和评估代码及其测试用例,用PageRank算法迭代更新代码片段的排名,最终形成基于正确性和效率优化的数据集。CodeDPO不依赖外部资源,能够灵活、可扩展地生成多样化的偏好优化数据,为复杂现实场景中的代码模型优化提供了坚实基础。 CodeD…- 1
-
InternVL – OpenGVLab 推出的多模态大模型
InternVL项目简介 InternVL 是上海人工智能实验室 OpenGVLab 推出的多模态大模型,专注于视觉与语言任务。采用 ViT-MLP-LLM 架构,通过视觉模块(如 InternViT)和语言模块(如 InternLM)的融合,实现视觉与语言的深度结合。InternVL 基于海量网络级图像-文本数据训练,支持多种模态输入,如图像、视频、文本,能生成多语言输出。 InternVL优势…- 3