-
Eino – 字节跳动开源的大模型应用开发框架
Eino项目简介 Eino 是字节跳动开源的大模型应用开发框架,能帮助开发者高效构建基于大模型的 AI 应用。Eino以 Go 语言为基础,具备稳定的内核、灵活的扩展性和完善的工具生态。Eino 的核心是组件化设计,基于定义不同的组件(如 ChatModel、Lambda 等)和编排方式(如 Chain 和 Graph),开发者能灵活地构建复杂的业务逻辑。Eino支持流式处理,自动处理流的拼接和复…- 1
- 0
-
SAC-KG – 通用知识图谱构建框架,能构建超百万节点的领域知识图谱
SAC-KG项目简介 SAC-KG是基于大型语言模型(LLMs)自动构建领域知识图谱的通用框架。由生成器、验证器和剪枝器三个主要组件构成,能自动从原始领域语料库中生成特定领域的一级知识图谱,确保生成的三元组的准确性。SAC-KG能构建超过百万节点规模的领域知识图谱,达到89.32%的精度,比现有最先进方法提高了20%以上的精度。这一框架有效地利用LLMs作为领域专家,生成专业且准确的多层级知识图谱…- 0
- 0
-
AI绘画进阶入门ComfyUI系列教程第七章,Cn应用与神奇的视觉编码!
【视频简介】 关于ControlNet应用的教程。视频首先介绍了ControlNet在webUI中的应用,以及与之前SD界面的结合使用。接着详细讲解了ControlNet的原理和处理核心以及高级选项的使用。然后介绍了预处理图像需要使用的节点以及一些后期处理的小节点。最后介绍了ControlNet的集成的处理器可以方便地调用各种预处理节点。视频内容详细适合初学者入门。 【视频时间线】 CONVI系列…- 0
- 0
-
豆包大模型1.5 – 字节跳动推出的最新版大模型
豆包大模型1.5项目简介 豆包大模型1.5 是字节跳动推出的最新版本大模型。采用大规模稀疏MoE架构,等效于7倍激活参数的Dense模型性能,综合得分在知识、代码、推理、中文等多个测评基准上优于GPT-4o和Claude 3.5 Sonnet等模型。豆包大模型1.5 还推出了豆包·实时语音模型(Doubao-1.5-realtime-voice-pro)和豆包·视觉理解模型(Doubao-1.5-…- 0
- 0
-
TRELLIS – 微软联合清华和中科大推出的高质量 3D 生成模型
TRELLIS项目简介 TRELLIS是清华大学、中国科学技术大学和微软研究院推出的3D生成模型,基于Structured LATent(SLAT)表示法,从文本或图像提示中生成高质量、多样化的3D资产。模型融合稀疏的3D网格结构和从多视角提取的密集视觉特征,全面捕捉3D资产的几何和外观信息。TRELLIS用修正流变换器作为其核心,处理SLAT的稀疏性,在大规模3D资产数据集上训练,参数高达20亿…- 0
- 0
-
LatentLM – 微软联合清华推出的多模态生成模型
LatentLM项目简介 LatentLM是微软研究院和清华大学共同推出的多模态生成模型,能统一处理离散数据(如文本)和连续数据(如图像、音频)。模型用变分自编码器(VAE)将连续数据编码为潜在向量,引入下一个词扩散技术自回归生成向量。LatentLM基于因果Transformer架构实现不同模态间信息共享,提高模型在多模态任务中的性能和可扩展性。LatentLM推出σ-VAE解决方差崩溃问题,增…- 0
- 0
-
R2R – AI 检索增强生成应用开发平台,支持多模态内容处理、混合搜索、知识图谱构建
R2R项目简介 R2R是先进的AI检索系统,专注于Retrieval-Augmented Generation(增强型检索生成)。R2R集成多模态内容摄取、混合搜索、知识图谱构建、GraphRAG聚类分析、用户和文档管理等核心功能。R2R基于RESTful API提供服务,支持快速部署,支持用户用直观的配置文件和开源React+Next.js管理仪表板进行交互。R2R简化了AI应用的开发,提高检索…- 0
- 0
-
GLM-4V-Plus – 智谱AI最新推出的多模态AI模型,专注图像和视频理解
GLM-4V-Plus项目简介 GLM-4V-Plus是智谱AI最新推出的多模态AI模型,专注于图像和视频理解。GLM-4V-Plus不仅能够精确分析静态图像,还具备动态视频内容的时间感知和理解能力,能捕捉视频中的关键事件和动作。作为国内首个提供视频理解API的模型,GLM-4V-Plus已集成在“智谱清言APP”中,并上线“视频通话”功能。同时,GLM-4V-Plus在智谱AI开放平台 BigM…- 0
- 0
-
JoyGen – 京东和港大推出音频驱动的3D说话人脸视频生成框架
JoyGen项目简介 JoyGen是京东科技和香港大学推出的,音频驱动的3D说话人脸视频生成框架,专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征和面部深度图,驱动唇部运动的生成,用单步UNet架构进行高效的视频编辑。JoyGen在训练过程中用包含130小时中文视频的高质量数据集,在开源的HDTF数据集上验证其优越性能。实验结果表明,JoyGen在唇部与音频同步和视觉质量…- 0
- 0
-
ID-Animator – 腾讯等推出的个性化人物视频生成框架
ID-Animator项目简介 ID-Animator是由来自腾讯光子工作室、中科大和中科院合肥物质科学研究院的研究人员推出的一种零样本(zero-shot)人类视频生成技术,能够根据单张参考面部图像生成个性化视频,同时保留图像中的人物身份特征,并能够根据文本提示调整视频内容。该框架通过结合预训练的文本到视频扩散模型和轻量级面部适配器,实现了高效的视频生成,且无需针对特定身份进行额外的训练。ID-…- 0
- 0
-
SlideChat – 上海AI Lab联合多所高校和机构推出的视觉语言助手
SlideChat项目简介 SlideChat是上海AI实验室、厦门大学、华东师范大学等机构推出的,首个能理解千兆像素级别全切片图像的视觉语言助手。SlideChat能生成详尽的全切片图像描述,针对多样化的病理场景提供具有上下文关联的复杂指令响应。基于训练,SlideChat在多个临床任务中展现出卓越的性能,包括显微镜检查、诊断等。SlideChat用大规模的多模态指令数据集SlideInstru…- 0
- 0
-
NotaGen – 中央音乐学院联合北航、清华等推出的音乐生成模型
NotaGen项目简介 NotaGen 是中央音乐学院、北京航空航天大学、清华大学等机构推出的音乐生成模型,基于模仿大型语言模型(LLM)的训练范式生成高质量的古典乐谱。NotaGen 基于预训练、微调和强化学习相结合的方法,预训练阶段用超过160万首乐曲,微调阶段基于约9000首高质量古典作品,基于“时期-作曲家-乐器”提示进行条件生成。在强化学习阶段,NotaGen 引入 CLaMP-DPO …- 0
- 0
-
麦橘超然 – 麦橘推出的AI文生图模型,基于 Flux.1 架构
麦橘超然项目简介 麦橘超然(MajicFlus)是麦橘推出的基于Flux.1架构的AI模型,专注于生成高质量的人像图像,擅长表现亚洲女性的细腻与美感。模型融合多种技术,能生成逼真的人物摄影风格,细致呈现头发、眼睛、雀斑等微小特征。麦橘超然支持快速生图和专业生图功能,用户基于简单的提示词生成优质作品,同时能进行更精细的控制。模型适用于人像生成,还能生成非人生物和场景,具有广泛的适用性和易用性,为创作…- 0
- 0
-
CAD-MLLM – 上海科技大学联合多机构推出的计算机辅助设计CAD模型生成系统
CAD-MLLM项目简介 CAD-MLLM是由上海科技大学、Transcengram、DeepSeek AI和香港大学共同推出的,计算机辅助设计(CAD)模型生成系统,根据用户的多种输入(如文本描述、图像、点云或这些输入的组合)生成参数化的CAD模型。系统用命令序列和大型语言模型(LLMs)对齐和处理多模态数据,构建完整的CAD模型。CAD-MLLM引入一个名为Omni-CAD的大规模多模态数据集…- 0
- 0
-
谷歌Play商店新功能上线:用户可直接向Gemini AI提问应用使用技巧
在数字时代,用户们常常面临一个问题:如何快速找到使用某款应用的最佳方法?为了简化这一过程,谷歌最近在其 Play 商店推出了一项全新的功能 ——“向 Play 询问此应用”。这一功能由谷歌的 Gemini AI 技术驱动,允许用户直接在应用页面上提问,从而避免了繁琐的网上搜索。 随着 Play 商店版本46.1.39-31的更新,这项新功能已经开始在部分应用中广泛应用。用户只需在感兴趣的应用下方,…- 0
- 0
-
n8n – 开源工作流自动化平台,支持400多个应用程序、拖放创建复杂工作流
n8n项目简介 n8n是开源的自动化工作流管理系统,提供一个低代码平台,支持用户用拖放的方式创建复杂的工作流,无需编写代码。n8n支持400多个应用程序和服务的集成,包括AI组件,让自动化各种业务流程变得简单。n8n基于Docker容器化部署,易于扩展和维护,适用于数据同步、客户关系管理、IT自动化等多种业务场景。n8n以灵活性、易用性和强大的集成能力,帮助企业提高效率和生产力。 n8n优势介绍 …- 0
- 0
-
GPT Pilot – AI编程工具,让95%的开发者实现自动写代码
GPT Pilot项目简介 GPT Pilot 是一款AI编程工具,通过模仿人类开发者的工作流程,帮助从零开始构建应用程序。能编写代码、调试程序、与用户讨论问题,并请求代码审查,是真正的 AI 开发者伙伴。GPT Pilot 支持多种运行方式,包括 VS Code 扩展、命令行工具和 Docker 容器,开发者能在熟悉的环境里提升开发效率。 GPT Pilot优势介绍 全功能代码生成:能编写大部分…- 1
- 0
-
BILIVE – 开源AI录播工具,一站式自动直播录制与处理
BILIVE项目简介 BILIVE 是基于 AI 技术的开源工具,专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕,支持语音识别、自动切片精彩片段,生成有趣的标题和风格化的视频封面。BILIVE 能自动将处理后的视频投稿至 B 站,综合多种模态模型,兼容超低配置机器,无需 GPU 即可运行,适合个人用户和小型服务器使用。 BILIVE优势介绍 直播录制:自动录制B站直播,支持多…- 1
- 0
-
Crack Coder – AI技术面试工具,提供实时编程问题支持
Crack Coder项目简介 Crack Coder 是开源的隐形 AI 辅助工具,专为技术面试设计。Crack Coder支持在后台运行,完全隐形,无法被屏幕录制或监控软件检测到。Crack Coder提供实时 AI 编程辅助,支持多种编程语言(如 Java、Python、JavaScript 等),给出精准的上下文代码建议。Crack Coder帮助面试者在技术面试中更高效地解决问题,同时保…- 1
- 0
-
RegionDrag – 港大和牛津联合开发的基于区域的图像编辑技术
RegionDrag项目简介 RegionDrag是由香港大学和牛津大学联合开发的一种基于区域的图像编辑技术。基于扩散模型,让用户定义手柄区域和目标区域来表达编辑意图,实现快速且精确的图像编辑。比传统的点拖动编辑更快,减少计算时间,提高编辑的直观性和准确性。RegionDrag一次性迭代完成编辑,提升编辑效率,采用注意力交换技术增强稳定性,使图像编辑在保持高质量输出的同时,速度比现有技术快100倍…- 1
- 0
-
LitServe – 基于FastAPI的高性能AI模型部署引擎
LitServe项目简介 LitServe是基于FastAPI的高性能AI模型部署引擎,专为企业级AI服务设计。支持批处理、流式处理和GPU自动扩展,简化了模型部署流程。LitServe易于安装和使用,通过pip即可安装,提供灵活的API定义和强大的服务器控制能力。还支持多种机器学习框架,具备自动扩展、身份验证等先进特性,是构建可扩展AI服务的理想选择。 LitServe的功能特色 高性能:基于F…- 1
- 0
-
PPTAgent – 中科院推出的自动生成高质量演示文稿框架
PPTAgent项目简介 PPTAgent是中国科学院软件研究所中文信息处理实验室推出的创新框架,基于模仿人类工作流程的两阶段编辑方法,从文档自动生成高质量的演示文稿。PPTAgent分析参考演示文稿,提取结构模式和内容模式,基于代码动作草拟大纲并生成幻灯片,确保内容的一致性和对齐。PPTAgent基于大型语言模型(LLM)的能力,将演示文稿生成过程分解为迭代的编辑工作流程,提高生成演示文稿的连贯…- 1
- 0
-
VectorVein – 开源的无代码AI工作流工具,简单拖拽定制AI应用
VectorVein项目简介 VectorVein 是一款开源的无代码AI工作流工具,通过简化的拖拽操作,让用户无需编程知识即可构建智能工作流,实现日常任务的自动化。VectorVein支持数据处理、分析和知识管理等多种应用场景,具备无代码、AI驱动、可定制化等特点。VectorVein 旨在降低AI应用门槛,提升个人和团队的工作效率,同时提供本地部署和开源选项,满足不同用户的数据安全和隐私需求。…- 1
- 0
-
MangaNinja – 基于参考图像的线稿着色技术
MangaNinja项目简介 MangaNinja是基于参考图像的线稿上色方法,具备精准匹配和细致控制的能力。通过创新的补丁重排模块和点驱动控制方案,提升了上色的准确性与图像质量。能应对多样化的上色挑战,包括极端姿势和多参考图像的协调,实现高质量的互动上色体验。 MangaNinja优势介绍 基于参考的线条艺术上色:通过参考图像为线稿提供上色指导,实现精确的颜色匹配。 精确的角色细节转录:补丁重排…- 1
- 0