-
GLM-4-Voice – 智谱AI推出的端到端情感语音模型
GLM-4-Voice项目简介 GLM-4-Voice是智谱AI推出的端到端情感语音模型,能直接理解和生成中英文语音,支持实时语音对话,能根据用户指令灵活调整语音的情感、语调、语速和方言等特征。模型由三个部分组成:GLM-4-Voice-Tokenizer负责将连续语音转换为离散token,GLM-4-Voice-Decoder将token转换回连续语音输出,GLM-4-Voice-9B基于GLM…- 0
- 0
-
CogAgent-9B – 智谱AI开源 GLM-PC 的基座模型
CogAgent-9B项目简介 CogAgent-9B是基于 GLM-4V-9B 训练的专用Agent任务模型,仅依赖屏幕截图作为输入,无需HTML等文本表征。CogAgent-9B支持高分辨率图像处理,具备双语(中英文)交互能力,能预测并执行GUI操作,实现自动化任务。在多个GUI操作数据集上取得了领先成绩,模型已开源,推动大模型Agent生态的发展。CogAgent-9B可广泛应用于个人电脑、…- 0
- 0
-
10亿注资!智谱AI获浦东张江力挺,GLM-4.1V重磅开源,AGI进程再提速
在近期于上海举行的智谱开放平台产业生态大会上,人工智能领域迎来重磅消息:浦东创投集团和张江集团联合宣布,向智谱进行总额高达10亿元的战略投资,并且首笔交割已于近期完成。这项重大投资将为智谱构建可信赖的人工智能基础设施注入强大动力,加速其在通用人工智能(AGI)领域的布局。 智谱CEO张鹏在大会主题演讲中,详细阐述了公司携手生态伙伴迈向AGI的两项最新成果。首先,智谱开源发布了新一代通用视觉语言模…- 1
- 0
-
CogVideoX-Flash – 智谱推出的首个免费AI视频生成模型
CogVideoX-Flash项目简介 CogVideoX-Flash 是智谱推出的首个免费AI视频生成模型,继承CogVideoX自研的端到端视频理解模型,具备强大的视频生成能力。CogVideoX-Flash支持文生视频,依据输入的文本描述精准地生成相应的动态视频内容;还支持图生视频,能对输入的图片进行深度解析,提取图片中的关键信息、元素特征及潜在语义,为视频增添听觉享受,CogVideoX-…- 0
- 0