全部标签

工具测评

最新随机最多浏览最多喜欢

SOLAMI – 南洋理工推出的VR端3D角色扮演AI系统

SOLAMI项目简介 SOLAMI是创新的VR端3D角色扮演AI系统，是南洋理工大学研究团队推出的。支持用户用语音和肢体语言与虚拟角色进行沉浸式互动，基于社交视觉-语言-行为模型，提供超越传统文本和语音交互的自然交流体验。SOLAMI用端到端的VLA模型驱动，能识别用户的肢体语言，作出响应，支持多种角色互动，如跳舞、玩游戏等。SOLAMI为AI角色扮演游戏带来了新的沉浸式体验。 SOLAMI优势介…
工具测评
- 2
7月3日
Scribe – ElevenLabs 推出的高精度语音转文本模型

Scribe项目简介 Scribe 是 ElevenLabs 推出的高精度语音转文本模型，专为多语言和复杂音频环境设计。支持99种语言，英语和意大利语的转录准确率分别达到96.7%和98.7%，在小语种上也有出色表现。Scribe 能区分多达32位说话者，检测笑声、音效等非语言事件，提供结构化的JSON输出，包含单词级时间戳和说话者标注。 Scribe优势介绍多语言支持：Scribe 支持 99…
工具测评
- 0
7月2日
LongVU – Meta AI开源的长视频理解模型

LongVU项目简介 LongVU是Meta AI团队推出的长视频理解模型，基于时空自适应压缩机制。解决处理长视频时受限于大型语言模型（LLM）上下文大小的挑战。LongVU基于跨模态查询和帧间依赖性，LongVU能在减少视频标记数量的同时，保留长视频的视觉细节。LongVU用DINOv2特征去除相似度高的冗余帧，用文本引导的跨模态查询进行选择性帧特征减少，在必要时基于时间依赖性进行空间标记压缩。…
工具测评
- 0
7月2日
NVLM – 英伟达推出的多模态大型语言模型

NVLM项目简介 NVLM是NVIDIA推出的前沿多模态大型语言模型（LLMs），在视觉-语言任务上达到与顶尖专有模型（如GPT-4o）和开放访问模型（如Llama 3-V 405B和InternVL 2）相匹敌的性能。NVLM 1.0家族包括三种架构：仅解码器模型NVLM-D、基于交叉注意力的模型NVLM-X和混合架构NVLM-H。三种架构在多模态训练后，保持了文本性能，在某些情况下超过了它们的…
工具测评
- 0
7月2日
混元图生视频 – 腾讯混元开源的图生视频模型

混元图生视频项目简介混元图生视频是腾讯混元推出的开源图生视频模型，用户可以通过上传一张图片进行简短描述，让图片动起来生成5秒的短视频。模型支持对口型、动作驱动和背景音效自动生成等功能。模型适用于写实、动漫和CGI等多种角色和场景，总参数量为130亿。腾讯混元图生视频模型已在腾讯云上线，用户可通过混元AI视频官网使用体验。混元图生视频模型在Github、HuggingFace等主流开发者社区开源，…
工具测评
- 0
7月2日
推荐最近3个开源AI项目：3D识别大语言模型，AI文本生成3D全景图，AI读懂视频唇语

3D识别大语言模型，能够基于3D世界模型回答问题，AI走向三次元。项目地址：https://github.com/3d-vista/3D-VisTA 文字提示词+手绘草图，生成3D全景图，类似之前介绍过的Skybox（AI一键手绘3D全景），泰裤辣！项目地址：https://huggingface.co/spaces/Intel/ldm3d/tree/main 能读懂唇语的AI多语言视听模型，…
工具测评
- 0
7月2日
谷歌Gemini刚发布就引发争议：被质疑官方宣传片疑似剪辑效果，夸大AI能力宣传实测对标GPT-4测评基准有失偏颇

谷歌憋了许久的大招，双子座Gemini大模型终于发布！点击下方卡片了解大模型产品信息：谷歌Gemini 谷歌的新一代大语言模型Gemini，号称迄今为止“最大、也最全能的AI模型”，有高级推理能力，回答难题时“考虑得更仔细”。获取工具其中最引人注目的一张图，MMLU多任务语言理解数据集测试，Gemini Ultra不光超越GPT-4，甚至超越了人类专家。在另外一则官方的宣传视频里边，AI…
工具测评
- 0
7月2日
cobalt – 开源的流媒体下载工具，支持全平台视频、音频和图片下载

cobalt项目简介 cobalt是开源的流媒体下载工具，提供纯净、简洁无广告的体验。cobalt支持全平台视频、音频和图片下载，包括主流视频网站、社交媒体和音乐平台。cobalt提供个性化设置，支持多主题切换。用户能下载高达8K的视频和多种格式的音频，cobalt能自动提取字幕，使用简单，无需注册，支持网页版和Docker自托管部署。 cobalt优势介绍全平台支持：能下载来自YouTube、…
工具测评
- 1
7月2日