-
LDGen – 理想汽车推出的多语言文本到图像生成技术
LDGen项目简介 LDGen是创新的文本到图像合成技术,通过结合大型语言模型(LLMs)与扩散模型,提升文本描述到图像生成的质量和语义一致性。通过分层标题优化和人类指令技术,提取文本中的精确语义信息,基于轻量级适配器实现LLMs与图像特征的高效对齐和交互。LDGen支持零样本多语言生成,能根据多种语言的文本描述生成高质量图像,显著优于传统方法。 LDGen优势介绍 多语言零样本生成:通过将大型语…- 1
-
Whispo – AI语音转录工具,一键录音与转写
Whispo项目简介 Whispo是AI驱动的语音转录工具,支持用户按住Ctrl键录制语音,在释放键时自动将转录的文本插入到正在用的任何支持文本输入的应用程序中。工具的数据处理完全在本地进行,确保数据的安全性和隐私性。Whispo基于先进的OpenAI Whisper技术进行语音识别,支持用自定义API URL使用用户的转录服务。Whispo支持用大型语言模型进行转录后的文本处理,提高转录的准确性…- 1
-
夸克灵知大模型 – 夸克推出的AI学习大模型
夸克灵知大模型项目简介 夸克灵知大模型是夸克公司全新推出的智能学习大模型,具备博士生级别的推理能力。基于AI技术为用户提供分步骤题目讲解,能随时回答问题。在考研数学等题目的正确率和得分率上,夸克灵知大模型已经能与OpenAI的o1模型相媲美,远超国内其他模型。模型能帮助用户提升学习能力和效率,实现从解决一道题到掌握一类题的转变。 夸克灵知大模型优势介绍 智能搜题与解题:用户搜索各类新题和难题,获得…- 4
-
Steamer-I2V – 百度推出的图像到视频生成模型
Steamer-I2V项目简介 Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型,通过将静态图像转化为动态视频,展现出卓越的视觉生成能力。模型在 VBench 国际权威的视频生成评测中荣获榜首,基于精准的视觉控制、高清画质以及对中文语义的深刻理解脱颖而出。 Steamer-I2V 细粒度的视频结构化描述语言,能实现像素级的画面控制与电影级的构图效果,支持多模态输入,包括…- 4
-
auto-video-generator – AI自动解说视频生成器
auto-video-generator项目简介 auto-video-generator是AI自动解说视频生成器,能实现一键生成解说视频。用户只需输入主题,系统便自动撰写脚本、合成语音、生成图片并合成视频,极大提升内容创作效率。适用于自媒体、营销、教育等多个场景,帮助创作者快速制作高质量视频。 auto-video-generator的功能特色 自动生成解说脚本:输入主题后,AI自动撰写清晰、完…- 0
-
olly.bot – 个人AI助理,集成多种通用AI能力支持本地使用
olly.bot项目简介 Olly.bot是集成于iMessage和SMS的个人AI助手,基于OpenAI大模型,提供网络搜索、文档分析、图片生成等功能。Olly.bot无需下载、注册,不收集用户身份信息,保护隐私。支持iOS、macOS、Android和Windows平台。Olly.bot的设计理念是成为多合一的AI伴侣,包括管理任务、导航、寻求个性化建议,改变用户与技术互动的方式。 olly.…- 2
-
MiniMax MCP Server – MiniMax 推出基于 MCP 的多模态生成服务器
MiniMax MCP Server项目简介 MiniMax MCP Server 是 MiniMax 稀宇科技推出的基于模型上下文协议(MCP)的多模态生成服务器。通过简单的文本输入,可调用视频生成、图像生成、语音生成及声音克隆等多项前沿能力。平台具有强大的多模态功能,支持高分辨率视频、精细化图像和自然语音的生成,具备独特的声音克隆能力。 MiniMax MCP Server 兼容多种主流 MC…- 0
-
OpenELM – 苹果开源的高效语言模型系列
OpenELM项目简介 OpenELM是Apple苹果公司最新推出的系列高效开源的语言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本(分为预训练版和指令微调版)。该大模型利用层间缩放策略在Transformer模型的每一层中进行参数的非均匀分配,以此提高模型的准确度和效率。该模型在公共数据集上进行了预训练,并且在多个自…- 2