-
gpt-4o-mini-transcribe – OpenAI 推出的语音转文本模型
gpt-4o-mini-transcribe项目简介 gpt-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,gpt-4o-transcribe的精简版。gpt-4o-mini-transcribe 基于 GPT-4o-mini 架构,用知识蒸馏技术从大模型中转移能力,实现更小的模型体积和更高的运行效率,适合在资源受限的设备(如移动设备或嵌入式系统)上运行,满足实时性…- 3
-
MeetingMind – AI会议助手,自动捕捉、分析和处理会议见解
MeetingMind项目简介 MeetingMind是AI驱动的会议助手,基于录音和文件上传功能自动转录会议音频,从中提取关键信息,如任务、决策和问题,帮助用户轻松捕获和分析会议内容,采取行动。工具用Langflow、Next.js和基于Groq的快速转录服务构建,提高会议效率和执行力。 MeetingMind优势介绍 录音和文件上传:支持用户直接上传会议的音频文件,无需手动输入会议内容。 人工…- 2
-
kimi-thinking-preview – 月之暗面推出的多模态思考模型
kimi-thinking-preview项目简介 kimi-thinking-preview 是月之暗面推出的多模态思考模型,具备深度推理能力,擅长解决复杂问题,如代码、数学和工作难题。模型基于 reasoning_content 字段展示推理过程,帮助用户理解回答背后的逻辑。kimi-thinking-preview 支持多轮对话,目前处于预览版,暂不支持工具调用、联网搜索、JSON 模式和上…- 1
-
Genmoai-smol – 对单GPU设备优化的开源AI视频生成模型
Genmoai-smol项目简介 Genmoai-smol是开源视频生成模型,是Genmoai的txt2video模型的工作进展分支,专为单GPU设备优化,减少显存占用,在资源有限的设备上能进行视频创作。模型用高保真度的运动和强大的提示遵循能力而闻名,显著缩小开放和封闭视频生成系统之间的差距。用户能基于Gradio UI或命令行界面直接生成视频。 Genmoai-smol优势介绍 视频生成:Gen…- 0
-
Hunyuan-Large – 腾讯推出的大型混合专家(MoE)模型
Hunyuan-Large项目简介 Hunyuan-Large是腾讯推出的大型混合专家(MoE)模型,具有3890亿总参数量和520亿激活参数量,是目前业界参数规模最大的开源MoE模型。基于Transformer架构,支持高达256K的文本序列输入,显著提升长文本任务的处理能力。Hunyuan-Large在长上下文处理、中英文自然语言处理、代码生成、数学运算等9大能力维度上表现出色,超越了Llam…- 3
-
MiniCPM-V – 面壁智能推出的开源多模态大模型
MiniCPM-V项目简介 MiniCPM-V是面壁智能推出的开源多模态大模型,拥有80亿参数,擅长图像和视频理解。MiniCPM-V在单图像理解上超越了GPT-4V等模型,并首次支持在iPad等设备上实时视频理解。模型以高效推理和低内存占用著称,具备强大的OCR能力和多语言支持。MiniCPM-V基于最新技术确保了模型的可信度和安全性,在GitHub上广受好评,是开源社区中的佼佼者。 MiniC…- 2
-
TokenVerse – DeepMind等机构推出的多概念个性化图像生成方法
TokenVerse项目简介 TokenVerse 是基于预训练文本到图像扩散模型的多概念个性化图像生成方法。能从单张图像中解耦复杂的视觉元素和属性,从多张图像中提取概念进行无缝组合生成。支持多种概念,包括物体、配饰、材质、姿势和光照等,突破了现有技术在概念类型或广度上的限制。 TokenVerse 基于 DiT 模型的调制空间,通过优化框架为每个词汇找到独特的调制空间方向,实现对复杂概念的局部控…- 0
-
SOLAMI – 南洋理工推出的VR端3D角色扮演AI系统
SOLAMI项目简介 SOLAMI是创新的VR端3D角色扮演AI系统,是南洋理工大学研究团队推出的。支持用户用语音和肢体语言与虚拟角色进行沉浸式互动,基于社交视觉-语言-行为模型,提供超越传统文本和语音交互的自然交流体验。SOLAMI用端到端的VLA模型驱动,能识别用户的肢体语言,作出响应,支持多种角色互动,如跳舞、玩游戏等。SOLAMI为AI角色扮演游戏带来了新的沉浸式体验。 SOLAMI优势介…- 2