-
SOLAMI – 南洋理工推出的VR端3D角色扮演AI系统
SOLAMI项目简介 SOLAMI是创新的VR端3D角色扮演AI系统,是南洋理工大学研究团队推出的。支持用户用语音和肢体语言与虚拟角色进行沉浸式互动,基于社交视觉-语言-行为模型,提供超越传统文本和语音交互的自然交流体验。SOLAMI用端到端的VLA模型驱动,能识别用户的肢体语言,作出响应,支持多种角色互动,如跳舞、玩游戏等。SOLAMI为AI角色扮演游戏带来了新的沉浸式体验。 SOLAMI优势介…- 2
-
Scribe – ElevenLabs 推出的高精度语音转文本模型
Scribe项目简介 Scribe 是 ElevenLabs 推出的高精度语音转文本模型,专为多语言和复杂音频环境设计。支持99种语言,英语和意大利语的转录准确率分别达到96.7%和98.7%,在小语种上也有出色表现。Scribe 能区分多达32位说话者,检测笑声、音效等非语言事件,提供结构化的JSON输出,包含单词级时间戳和说话者标注。 Scribe优势介绍 多语言支持:Scribe 支持 99…- 0
-
LongVU – Meta AI开源的长视频理解模型
LongVU项目简介 LongVU是Meta AI团队推出的长视频理解模型,基于时空自适应压缩机制。解决处理长视频时受限于大型语言模型(LLM)上下文大小的挑战。LongVU基于跨模态查询和帧间依赖性,LongVU能在减少视频标记数量的同时,保留长视频的视觉细节。LongVU用DINOv2特征去除相似度高的冗余帧,用文本引导的跨模态查询进行选择性帧特征减少,在必要时基于时间依赖性进行空间标记压缩。…- 0
-
NVLM – 英伟达推出的多模态大型语言模型
NVLM项目简介 NVLM是NVIDIA推出的前沿多模态大型语言模型(LLMs),在视觉-语言任务上达到与顶尖专有模型(如GPT-4o)和开放访问模型(如Llama 3-V 405B和InternVL 2)相匹敌的性能。NVLM 1.0家族包括三种架构:仅解码器模型NVLM-D、基于交叉注意力的模型NVLM-X和混合架构NVLM-H。三种架构在多模态训练后,保持了文本性能,在某些情况下超过了它们的…- 0
-
混元图生视频 – 腾讯混元开源的图生视频模型
混元图生视频项目简介 混元图生视频是腾讯混元推出的开源图生视频模型,用户可以通过上传一张图片进行简短描述,让图片动起来生成5秒的短视频。模型支持对口型、动作驱动和背景音效自动生成等功能。模型适用于写实、动漫和CGI等多种角色和场景,总参数量为130亿。腾讯混元图生视频模型已在腾讯云上线,用户可通过混元AI视频官网使用体验。混元图生视频模型在Github、HuggingFace等主流开发者社区开源,…- 0
-
推荐最近3个开源AI项目:3D识别大语言模型,AI文本生成3D全景图,AI读懂视频唇语
3D识别大语言模型,能够基于3D世界模型回答问题,AI走向三次元。 项目地址:https://github.com/3d-vista/3D-VisTA 文字提示词+手绘草图,生成3D全景图,类似之前介绍过的Skybox(AI一键手绘3D全景),泰裤辣! 项目地址:https://huggingface.co/spaces/Intel/ldm3d/tree/main 能读懂唇语的AI多语言视听模型,…- 0
-
谷歌Gemini刚发布就引发争议:被质疑官方宣传片疑似剪辑效果,夸大AI能力宣传实测对标GPT-4测评基准有失偏颇
谷歌憋了许久的大招,双子座Gemini大模型终于发布! 点击下方卡片了解大模型产品信息: 谷歌Gemini 谷歌的新一代大语言模型Gemini,号称迄今为止“最大、也最全能的AI模型”,有高级推理能力,回答难题时“考虑得更仔细”。 获取工具 其中最引人注目的一张图,MMLU多任务语言理解数据集测试,Gemini Ultra不光超越GPT-4,甚至超越了人类专家。 在另外一则官方的宣传视频里边,AI…- 0
-
cobalt – 开源的流媒体下载工具,支持全平台视频、音频和图片下载
cobalt项目简介 cobalt是开源的流媒体下载工具,提供纯净、简洁无广告的体验。cobalt支持全平台视频、音频和图片下载,包括主流视频网站、社交媒体和音乐平台。cobalt提供个性化设置,支持多主题切换。用户能下载高达8K的视频和多种格式的音频,cobalt能自动提取字幕,使用简单,无需注册,支持网页版和Docker自托管部署。 cobalt优势介绍 全平台支持:能下载来自YouTube、…- 1