全部标签

深度学习

美图奇想大模型 – 美图公司推出的AI视觉大模型

美图奇想大模型项目简介美图奇想大模型（MiracleVision）是美图公司推出的一款AI视觉大模型，专注于美学创作，包括东方美学、人像和商业设计等。模型完成了视频生成能力的全面升级，能生成1分钟、每秒24帧、1080P分辨率的高质量视频，显著提升视频的画质、流畅性和真实性。升级后的模型在美图旗下的产品如美图秀秀、美颜相机、Wink等应用中使用，将逐步推广到其他产品，如开拍、美图设计室、WHEE…
工具测评
- 0
- 0
AI逻界10小时前
Surya – 开源的OCR工具包，支持90+语言、布局分析等识别

Surya项目简介 Surya是一款功能强大的开源OCR（光学字符识别）工具包，专门设计用在文档识别，支持超过90种语言的识别。Surya能准确识别出文档中的文本，分析文本的阅读顺序，检测文档中的布局元素，如表格、图片和标题，及识别和解析表格内容。Surya因高效的表格识别能力而闻名，性能优于许多现有的开源模型，如Table Transformer。Surya完全免费且用于商业用途，支持跨平台运行…
工具测评
- 0
- 0
AI逻界7月27日
CapsWriter-Offline – AI语音转文字工具，PC端离线实时工作

CapsWriter-Offline项目简介 CapsWriter-Offline是一款高效的PC端离线语音输入和字幕转录工具，支持用户通过简单的按键操作实现实时语音转文字。软件适合快速记录和转写大量语音信息的场景，如会议、讲座或个人笔记。用户按下大写锁定键即可开始录音，松开后软件迅速将语音转换为文本。CapsWriter-Offline支持将音视频文件拖拽到客户端，快速生成SRT字幕文件，适合视…
工具测评
- 0
- 0
AI逻界7月25日
OpenCity – AI交通预测模型，卓越的零样本预测和情境适应能力

OpenCity项目简介 OpenCity是由香港大学联合华南理工大学和百度共同研发的交通预测模型。OpenCity采用Transformer架构和图神经网络，通过大规模预训练学习交通数据的时空依赖关系，具备卓越的零样本预测能力和快速情境适应能力，有效应对不同区域和时间的交通模式变化，推动智慧交通发展。 OpenCity优势介绍通用时空建模：有效处理不同空间区域和时间的城市交通模式的多样性和变化…
工具测评
- 2
- 0
AI逻界7月24日
Filmfotos – 模拟和还原胶片质感效果的LoRA模型

Filmfotos项目简介 Filmfotos是由DynamicWang推出的的基于Flux架构的LoRA模型，专注于模拟和还原胶片的质感效果。以低饱和度的日系胶片风格为特点，为照片带来柔和、细腻的复古美感。Filmfotos适用于多种场景，包括人物、风景、静物、食物和动物等，在多种图像类型中表现出胶片特有的质感。基于Flux架构的强大性能和LoRA模型的灵活性，提供高精度的图像生成，适合追求胶片…
工具测评
- 2
- 0
AI逻界7月24日
FLUX-Controlnet-Inpainting – 阿里妈妈推出的开源AI图像修复工具

FLUX-Controlnet-Inpainting项目简介 FLUX-Controlnet-Inpainting 是阿里妈妈（Alibaba’s Alimama）推出的一款图像修复工具，融合 ControlNet 和 FLUX.1-dev 技术。工具根据用户指定的掩码区域进行精确的图像修复，确保修复部分与原图风格一致。FLUX-Controlnet-Inpainting基于 ControlNet…
工具测评
- 3
- 0
AI逻界7月21日
CodeFormer – AI照片修复工具，轻松去除图片和视频马赛克

CodeFormer项目简介 CodeFormer是一款由南洋理工大学和商汤科技联合开发的AI照片和视频修复工具。融合了变分自动编码器（VQGAN）和Transformer技术，对模糊和马赛克的照片或视频进行高质量的修复。CodeFormer通过先进的算法优化图像细节，提升清晰度，保持自然和真实的视觉效果。支持图片和视频的高清修复，操作简单，开源免费，适用于家庭相册修复、社交媒体照片优化以及专业图…
工具测评
- 1
- 0
AI逻界7月20日
循环模型新突破：500 步训练让超长序列不再难！

在深度学习的领域，循环神经网络（RNN）和 Transformer 模型各有千秋。近期研究发现，线性循环模型(如 Mamba)凭借其优越的序列处理能力，正在逐渐挑战 Transformer 的地位。尤其是在处理极长序列的任务上，循环模型展现出了巨大的潜力，远远超出传统 Transformer 模型的局限性。 Transformer 模型在处理长上下文时，往往受到固定上下文窗口的限制，计算复杂度也随…
AI资讯
- 2
- 0
AI逻界7月12日
MMAudio – 基于多模态联合训练实现高质量 AI 音频合成项目

MMAudio项目简介 MMAudio是先进视频到音频合成技术，基于多模态联合训练，让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块，确保生成的音频与视频帧精确匹配，实现高度同步。MMAudio适用于多种应用场景，包括影视制作和游戏开发，根据视频内容或文本描述生成相应的音频，提升用户体验。 MMAudio优势介绍视频到音频合成：根据视频内容生成相应的音频，让视频和音频同步。 …
工具测评
- 2
- 0
AI逻界7月11日
夸克灵知大模型 – 夸克推出的AI学习大模型

夸克灵知大模型项目简介夸克灵知大模型是夸克公司全新推出的智能学习大模型，具备博士生级别的推理能力。基于AI技术为用户提供分步骤题目讲解，能随时回答问题。在考研数学等题目的正确率和得分率上，夸克灵知大模型已经能与OpenAI的o1模型相媲美，远超国内其他模型。模型能帮助用户提升学习能力和效率，实现从解决一道题到掌握一类题的转变。夸克灵知大模型优势介绍智能搜题与解题：用户搜索各类新题和难题，获得…
工具测评
- 4
- 0
AI逻界7月10日
EasyOCR – 支持超80种语言的开源OCR项目

EasyOCR项目简介 EasyOCR 是一个功能强大的开源OCR（光学字符识别）项目，支持80多种语言和多种书写系统，包括中文、阿拉伯文和西里尔文。基于深度学习技术，提供高精度的文字识别能力。用户可以通过简单的API轻松地将图像中的文本转换为可编辑的文本。EasyOCR易于安装和使用，支持跨平台操作，适用于批量处理图像文件。对图像质量有一定要求，在处理大型图像时速度较慢，不过还是一个用户友好的O…
工具测评
- 1
- 0
AI逻界7月10日
Torch-MLU – 寒武纪开源的PyTorch后端插件，支持大模型一键迁移

Torch-MLU项目简介 Torch-MLU 是寒武纪开源的 PyTorch 设备后端扩展插件，支持开发者将寒武纪 MLU 系列智能加速卡作为 PyTorch 的加速后端使用。插件实现了对 PyTorch 的原生支持，开发者能无缝地将基于 GPU 的深度学习模型迁移到寒武纪 MLU 硬件上，提升模型的训练和推理效率。Torch-MLU 的开源进一步促进 AI 生态的共建，为全球开发者提供更灵活和…
工具测评
- 1
- 0
AI逻界7月6日
auto-video-generator – AI自动解说视频生成器

auto-video-generator项目简介 auto-video-generator是AI自动解说视频生成器，能实现一键生成解说视频。用户只需输入主题，系统便自动撰写脚本、合成语音、生成图片并合成视频，极大提升内容创作效率。适用于自媒体、营销、教育等多个场景，帮助创作者快速制作高质量视频。 auto-video-generator的功能特色自动生成解说脚本：输入主题后，AI自动撰写清晰、完…
工具测评
- 1
- 0
AI逻界7月4日
Scribe – ElevenLabs 推出的高精度语音转文本模型

Scribe项目简介 Scribe 是 ElevenLabs 推出的高精度语音转文本模型，专为多语言和复杂音频环境设计。支持99种语言，英语和意大利语的转录准确率分别达到96.7%和98.7%，在小语种上也有出色表现。Scribe 能区分多达32位说话者，检测笑声、音效等非语言事件，提供结构化的JSON输出，包含单词级时间戳和说话者标注。 Scribe优势介绍多语言支持：Scribe 支持 99…
工具测评
- 2
- 0
AI逻界7月2日
ORMBG – 开源的AI图像分割工具

ORMBG项目简介 ORMBG是开源的AI图像分割工具，由开发者schirrmacher在GitHub上发起。ORMBG专注于从图片中准确去除背景，用先进的图像处理技术，实现对图像中前景和背景的精确区分，常用于照片编辑、图像合成和自动化图像处理等领域。ORMBG是一个社区驱动的项目，鼓励全球开发者参与，贡献代码，共同推动项目的发展和完善。 ORMBG优势介绍照片编辑：快速去除人物或物体背景，便于…
工具测评
- 1
- 0
AI逻界6月29日
MNN – 阿里开源的移动端深度学习推理框架

MNN项目简介 MNN（Mobile Neural Network）是阿里巴巴集团开源的轻量级深度学习推理框架，为移动端、服务器、个人电脑、嵌入式设备等多种设备提供高效的模型部署能力。MNN支持TensorFlow、Caffe、ONNX等主流模型格式，兼容CNN、RNN、GAN等多种网络结构。MNN具备轻量性、通用性、高性能和易用性特点，能在不依赖特定硬件NPU的情况下运行大型模型，支持模型量化和…
工具测评
- 1
- 0
AI逻界6月27日
Bocha Semantic Reranker – 博查推出的语义排序模型

Bocha Semantic Reranker项目简介 Bocha Semantic Reranker是博查AI推出的语义排序模型，能提升搜索应用和RAG应用中的搜索结果准确性。Bocha Semantic Reranker模型基于文本语义，对初步排序的搜索结果进行二次优化，用评估查询语句与文档内容的深层语义匹配，给出排序得分，改善用户搜索体验。Bocha Semantic Reranker适用于…
工具测评
- 1
- 0
AI逻界6月25日
Wav2Lip – 开源的唇形同步工具

Wav2Lip项目简介 Wav2Lip是开源的唇形同步工具，支持用户将音频文件转换成与口型同步的视频，广泛应用于视频编辑和游戏开发等领域。Wav2Lip不仅能够实现实时口型生成，还支持多种语言，适用于不同场景下的需求。无论是提升电影和视频的后期制作质量，还是增强虚拟现实中的交互体验，Wav2Lip都能发挥重要作用。 Wav2Lip的功能特色音频驱动口型：根据输入的音频信号，自动生成与语音同步的口…
工具测评
- 2
- 0
AI逻界6月24日
PGTFormer – 先进的AI视频人脸修复框架

PGTFormer项目简介 PGTFormer是先进的视频人脸修复框架，通过解析引导的时间一致性变换器来恢复视频中的高保真细节，同时增强时间连贯性。该方法无需预对齐，基于语义解析选择最佳人脸先验，并通过时空Transformer模块和时序保真度调节器，实现高效且自然的修复效果。 PGTFormer优势介绍盲视频人脸修复：无需预对齐，直接对低质量视频人脸进行修复。语义解析引导：采用面部解析上下文…
工具测评
- 2
- 0
AI逻界6月21日
Red_Panda – Recraft推出的AI图像生成模型

Red_Panda项目简介 Red_Panda 是 Recraft V3 在发布初期使用的化名，是Recraft AI推出的先进AI图像生成模型，以卓越的性能在图像生成领域树立新标准。在Hugging Face的Text-to-Image Benchmark中以1172的ELO评分领先，超越Midjourney和OpenAI等竞争对手。Red_Panda擅长文本生成，能处理长文本，生成具有高解剖学…
工具测评
- 0
- 0
AI逻界6月21日
Make-It-Animatable – 中科大联合腾讯推出的自动生成即时动画准备资产

Make-It-Animatable项目简介 Make-It-Animatable是中国科学技术大学和Tencent PCG推出的数据驱动框架，能在不到一秒钟内让任何3D人形模型准备好进行角色动画状态，无论其形状和姿势如何。框架基于生成高质量的混合权重、骨骼和姿势变换，支持多种3D表示，包括网格和3D高斯斑点。基于从粗到细的表示和结构感知建模策略，确保准确性和鲁棒性，甚至适于具有非标准骨架结构的角…
工具测评
- 2
- 0
AI逻界6月20日
Multi-Speaker – AudioShake 推出的多说话人声分离模型

Multi-Speaker项目简介 Multi-Speaker是AudioShake推出的全球首个高分辨率多说话人分离模型。支持将音频中的多个说话人精准分离到不同轨道，解决传统音频工具在处理重叠语音时的难题。Multi-Speaker适用于多种场景，先进神经架构支持高采样率，适合广播级音频，支持处理长达数小时的录音，在高重叠和低重叠场景，保持一致的分离效果，为音频编辑和创作带来革命性变革。Mult…
工具测评
- 3
- 0
AI逻界6月19日
Zerox – 开源的OCR工具，零样本识别多种格式文件

Zerox项目简介 Zerox是开源的本地化高精度OCR工具，基于GPT-4o-mini模型，无需提前训练实现零样本识别。Zerox支持PDF、DOCX、图片等多种格式文件，擅长处理扫描版文档及复杂布局文件，如含表格、图表等。Zerox工作流程是将文件转换为图像后进行OCR识别，最终输出Markdown格式文档，方便用户编辑和使用。Zerox提供API接口，便于开发者集成到应用中，实现自动化文档处…
工具测评
- 2
- 0
AI逻界6月18日
GLM-4-Flash – 智谱AI推出的首个免费大模型API

GLM-4-Flash项目简介 GLM-4-Flash是智谱AI推出的首个免费大模型API，GLM-4-Flash不仅支持多轮对话和多语言处理，还具备网页浏览、代码执行等高级功能。开发者和企业可以在智谱AI开放平台接入免费使用，GLM-4-Flash 模型在“速度”和“性能”两方面都具有较大优势，提供了极具成本效益的AI解决方案。 GLM-4-Flash优势介绍多轮对话：支持128K上下文，最大…
工具测评
- 1
- 0
AI逻界6月16日