-
美图奇想大模型 – 美图公司推出的AI视觉大模型
美图奇想大模型项目简介 美图奇想大模型(MiracleVision)是美图公司推出的一款AI视觉大模型,专注于美学创作,包括东方美学、人像和商业设计等。模型完成了视频生成能力的全面升级,能生成1分钟、每秒24帧、1080P分辨率的高质量视频,显著提升视频的画质、流畅性和真实性。升级后的模型在美图旗下的产品如美图秀秀、美颜相机、Wink等应用中使用,将逐步推广到其他产品,如开拍、美图设计室、WHEE…- 0
- 0
-
Surya – 开源的OCR工具包,支持90+语言、布局分析等识别
Surya项目简介 Surya是一款功能强大的开源OCR(光学字符识别)工具包,专门设计用在文档识别,支持超过90种语言的识别。Surya能准确识别出文档中的文本,分析文本的阅读顺序,检测文档中的布局元素,如表格、图片和标题,及识别和解析表格内容。Surya因高效的表格识别能力而闻名,性能优于许多现有的开源模型,如Table Transformer。Surya完全免费且用于商业用途,支持跨平台运行…- 0
- 0
-
CapsWriter-Offline – AI语音转文字工具,PC端离线实时工作
CapsWriter-Offline项目简介 CapsWriter-Offline是一款高效的PC端离线语音输入和字幕转录工具,支持用户通过简单的按键操作实现实时语音转文字。软件适合快速记录和转写大量语音信息的场景,如会议、讲座或个人笔记。用户按下大写锁定键即可开始录音,松开后软件迅速将语音转换为文本。CapsWriter-Offline支持将音视频文件拖拽到客户端,快速生成SRT字幕文件,适合视…- 0
- 0
-
OpenCity – AI交通预测模型,卓越的零样本预测和情境适应能力
OpenCity项目简介 OpenCity是由香港大学联合华南理工大学和百度共同研发的交通预测模型。OpenCity采用Transformer架构和图神经网络,通过大规模预训练学习交通数据的时空依赖关系,具备卓越的零样本预测能力和快速情境适应能力,有效应对不同区域和时间的交通模式变化,推动智慧交通发展。 OpenCity优势介绍 通用时空建模:有效处理不同空间区域和时间的城市交通模式的多样性和变化…- 2
- 0
-
Filmfotos – 模拟和还原胶片质感效果的LoRA模型
Filmfotos项目简介 Filmfotos是由DynamicWang推出的的基于Flux架构的LoRA模型,专注于模拟和还原胶片的质感效果。以低饱和度的日系胶片风格为特点,为照片带来柔和、细腻的复古美感。Filmfotos适用于多种场景,包括人物、风景、静物、食物和动物等,在多种图像类型中表现出胶片特有的质感。基于Flux架构的强大性能和LoRA模型的灵活性,提供高精度的图像生成,适合追求胶片…- 2
- 0
-
FLUX-Controlnet-Inpainting – 阿里妈妈推出的开源AI图像修复工具
FLUX-Controlnet-Inpainting项目简介 FLUX-Controlnet-Inpainting 是阿里妈妈(Alibaba’s Alimama)推出的一款图像修复工具,融合 ControlNet 和 FLUX.1-dev 技术。工具根据用户指定的掩码区域进行精确的图像修复,确保修复部分与原图风格一致。FLUX-Controlnet-Inpainting基于 ControlNet…- 3
- 0
-
CodeFormer – AI照片修复工具,轻松去除图片和视频马赛克
CodeFormer项目简介 CodeFormer是一款由南洋理工大学和商汤科技联合开发的AI照片和视频修复工具。融合了变分自动编码器(VQGAN)和Transformer技术,对模糊和马赛克的照片或视频进行高质量的修复。CodeFormer通过先进的算法优化图像细节,提升清晰度,保持自然和真实的视觉效果。支持图片和视频的高清修复,操作简单,开源免费,适用于家庭相册修复、社交媒体照片优化以及专业图…- 1
- 0
-
循环模型新突破:500 步训练让超长序列不再难!
在深度学习的领域,循环神经网络(RNN)和 Transformer 模型各有千秋。近期研究发现,线性循环模型(如 Mamba)凭借其优越的序列处理能力,正在逐渐挑战 Transformer 的地位。尤其是在处理极长序列的任务上,循环模型展现出了巨大的潜力,远远超出传统 Transformer 模型的局限性。 Transformer 模型在处理长上下文时,往往受到固定上下文窗口的限制,计算复杂度也随…- 2
- 0
-
MMAudio – 基于多模态联合训练实现高质量 AI 音频合成项目
MMAudio项目简介 MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块,确保生成的音频与视频帧精确匹配,实现高度同步。MMAudio适用于多种应用场景,包括影视制作和游戏开发,根据视频内容或文本描述生成相应的音频,提升用户体验。 MMAudio优势介绍 视频到音频合成:根据视频内容生成相应的音频,让视频和音频同步。 …- 2
- 0
-
夸克灵知大模型 – 夸克推出的AI学习大模型
夸克灵知大模型项目简介 夸克灵知大模型是夸克公司全新推出的智能学习大模型,具备博士生级别的推理能力。基于AI技术为用户提供分步骤题目讲解,能随时回答问题。在考研数学等题目的正确率和得分率上,夸克灵知大模型已经能与OpenAI的o1模型相媲美,远超国内其他模型。模型能帮助用户提升学习能力和效率,实现从解决一道题到掌握一类题的转变。 夸克灵知大模型优势介绍 智能搜题与解题:用户搜索各类新题和难题,获得…- 4
- 0
-
EasyOCR – 支持超80种语言的开源OCR项目
EasyOCR项目简介 EasyOCR 是一个功能强大的开源OCR(光学字符识别)项目,支持80多种语言和多种书写系统,包括中文、阿拉伯文和西里尔文。基于深度学习技术,提供高精度的文字识别能力。用户可以通过简单的API轻松地将图像中的文本转换为可编辑的文本。EasyOCR易于安装和使用,支持跨平台操作,适用于批量处理图像文件。对图像质量有一定要求,在处理大型图像时速度较慢,不过还是一个用户友好的O…- 1
- 0
-
Torch-MLU – 寒武纪开源的PyTorch后端插件,支持大模型一键迁移
Torch-MLU项目简介 Torch-MLU 是寒武纪开源的 PyTorch 设备后端扩展插件,支持开发者将寒武纪 MLU 系列智能加速卡作为 PyTorch 的加速后端使用。插件实现了对 PyTorch 的原生支持,开发者能无缝地将基于 GPU 的深度学习模型迁移到寒武纪 MLU 硬件上,提升模型的训练和推理效率。Torch-MLU 的开源进一步促进 AI 生态的共建,为全球开发者提供更灵活和…- 1
- 0
-
auto-video-generator – AI自动解说视频生成器
auto-video-generator项目简介 auto-video-generator是AI自动解说视频生成器,能实现一键生成解说视频。用户只需输入主题,系统便自动撰写脚本、合成语音、生成图片并合成视频,极大提升内容创作效率。适用于自媒体、营销、教育等多个场景,帮助创作者快速制作高质量视频。 auto-video-generator的功能特色 自动生成解说脚本:输入主题后,AI自动撰写清晰、完…- 1
- 0
-
Scribe – ElevenLabs 推出的高精度语音转文本模型
Scribe项目简介 Scribe 是 ElevenLabs 推出的高精度语音转文本模型,专为多语言和复杂音频环境设计。支持99种语言,英语和意大利语的转录准确率分别达到96.7%和98.7%,在小语种上也有出色表现。Scribe 能区分多达32位说话者,检测笑声、音效等非语言事件,提供结构化的JSON输出,包含单词级时间戳和说话者标注。 Scribe优势介绍 多语言支持:Scribe 支持 99…- 2
- 0
-
ORMBG – 开源的AI图像分割工具
ORMBG项目简介 ORMBG是开源的AI图像分割工具,由开发者schirrmacher在GitHub上发起。ORMBG专注于从图片中准确去除背景,用先进的图像处理技术,实现对图像中前景和背景的精确区分,常用于照片编辑、图像合成和自动化图像处理等领域。ORMBG是一个社区驱动的项目,鼓励全球开发者参与,贡献代码,共同推动项目的发展和完善。 ORMBG优势介绍 照片编辑:快速去除人物或物体背景,便于…- 1
- 0
-
MNN – 阿里开源的移动端深度学习推理框架
MNN项目简介 MNN(Mobile Neural Network)是阿里巴巴集团开源的轻量级深度学习推理框架,为移动端、服务器、个人电脑、嵌入式设备等多种设备提供高效的模型部署能力。MNN支持TensorFlow、Caffe、ONNX等主流模型格式,兼容CNN、RNN、GAN等多种网络结构。MNN具备轻量性、通用性、高性能和易用性特点,能在不依赖特定硬件NPU的情况下运行大型模型,支持模型量化和…- 1
- 0
-
Bocha Semantic Reranker – 博查推出的语义排序模型
Bocha Semantic Reranker项目简介 Bocha Semantic Reranker是博查AI推出的语义排序模型,能提升搜索应用和RAG应用中的搜索结果准确性。Bocha Semantic Reranker模型基于文本语义,对初步排序的搜索结果进行二次优化,用评估查询语句与文档内容的深层语义匹配,给出排序得分,改善用户搜索体验。Bocha Semantic Reranker适用于…- 1
- 0
-
Wav2Lip – 开源的唇形同步工具
Wav2Lip项目简介 Wav2Lip是开源的唇形同步工具,支持用户将音频文件转换成与口型同步的视频,广泛应用于视频编辑和游戏开发等领域。Wav2Lip不仅能够实现实时口型生成,还支持多种语言,适用于不同场景下的需求。无论是提升电影和视频的后期制作质量,还是增强虚拟现实中的交互体验,Wav2Lip都能发挥重要作用。 Wav2Lip的功能特色 音频驱动口型:根据输入的音频信号,自动生成与语音同步的口…- 2
- 0
-
PGTFormer – 先进的AI视频人脸修复框架
PGTFormer项目简介 PGTFormer是先进的视频人脸修复框架,通过解析引导的时间一致性变换器来恢复视频中的高保真细节,同时增强时间连贯性。该方法无需预对齐,基于语义解析选择最佳人脸先验,并通过时空Transformer模块和时序保真度调节器,实现高效且自然的修复效果。 PGTFormer优势介绍 盲视频人脸修复:无需预对齐,直接对低质量视频人脸进行修复。 语义解析引导:采用面部解析上下文…- 2
- 0
-
Red_Panda – Recraft推出的AI图像生成模型
Red_Panda项目简介 Red_Panda 是 Recraft V3 在发布初期使用的化名,是Recraft AI推出的先进AI图像生成模型,以卓越的性能在图像生成领域树立新标准。在Hugging Face的Text-to-Image Benchmark中以1172的ELO评分领先,超越Midjourney和OpenAI等竞争对手。Red_Panda擅长文本生成,能处理长文本,生成具有高解剖学…- 0
- 0
-
Make-It-Animatable – 中科大联合腾讯推出的自动生成即时动画准备资产
Make-It-Animatable项目简介 Make-It-Animatable是中国科学技术大学和Tencent PCG推出的数据驱动框架,能在不到一秒钟内让任何3D人形模型准备好进行角色动画状态,无论其形状和姿势如何。框架基于生成高质量的混合权重、骨骼和姿势变换,支持多种3D表示,包括网格和3D高斯斑点。基于从粗到细的表示和结构感知建模策略,确保准确性和鲁棒性,甚至适于具有非标准骨架结构的角…- 2
- 0
-
Multi-Speaker – AudioShake 推出的多说话人声分离模型
Multi-Speaker项目简介 Multi-Speaker是AudioShake推出的全球首个高分辨率多说话人分离模型。支持将音频中的多个说话人精准分离到不同轨道,解决传统音频工具在处理重叠语音时的难题。Multi-Speaker适用于多种场景,先进神经架构支持高采样率,适合广播级音频,支持处理长达数小时的录音,在高重叠和低重叠场景,保持一致的分离效果,为音频编辑和创作带来革命性变革。Mult…- 3
- 0
-
Zerox – 开源的OCR工具,零样本识别多种格式文件
Zerox项目简介 Zerox是开源的本地化高精度OCR工具,基于GPT-4o-mini模型,无需提前训练实现零样本识别。Zerox支持PDF、DOCX、图片等多种格式文件,擅长处理扫描版文档及复杂布局文件,如含表格、图表等。Zerox工作流程是将文件转换为图像后进行OCR识别,最终输出Markdown格式文档,方便用户编辑和使用。Zerox提供API接口,便于开发者集成到应用中,实现自动化文档处…- 2
- 0
-
GLM-4-Flash – 智谱AI推出的首个免费大模型API
GLM-4-Flash项目简介 GLM-4-Flash是智谱AI推出的首个免费大模型API,GLM-4-Flash不仅支持多轮对话和多语言处理,还具备网页浏览、代码执行等高级功能。开发者和企业可以在智谱AI开放平台接入免费使用,GLM-4-Flash 模型在“速度”和“性能”两方面都具有较大优势,提供了极具成本效益的AI解决方案。 GLM-4-Flash优势介绍 多轮对话:支持128K上下文,最大…- 1
- 0