-
GLM-4-Voice – 智谱AI推出的端到端情感语音模型
GLM-4-Voice项目简介 GLM-4-Voice是智谱AI推出的端到端情感语音模型,能直接理解和生成中英文语音,支持实时语音对话,能根据用户指令灵活调整语音的情感、语调、语速和方言等特征。模型由三个部分组成:GLM-4-Voice-Tokenizer负责将连续语音转换为离散token,GLM-4-Voice-Decoder将token转换回连续语音输出,GLM-4-Voice-9B基于GLM…- 2
-
Thinking Claude – 17岁高中生推出的神级Prompt工具,AI 思维更接近人类
Thinking Claude项目简介 Thinking Claude是基于深度思考协议和浏览器扩展工具,增强AI模型Claude-3.5的“深度思维”能力的项目,让其思考逻辑更接近人类。支持AI以自然、未经过滤的方式深入思考后再回应,支持思考过程的展开和折叠。Thinking Claude提供更易于阅读和管理的界面,让日常任务中的AI对话更加有趣和富有洞察力。 Thinking Claude优势…- 1
-
Stable Virtual Camera – Stability AI 等机构推出的 AI 模型,2D图像转3D视频
Stable Virtual Camera项目简介 Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能将 2D 图像转换为具有真实深度和透视感的 3D 视频。用户可以通过指定相机轨迹和多种动态路径(如螺旋、推拉变焦、平移等)来生成视频。模型支持从 1 到 32 张输入图像生成不同宽高比(如 1:1、9:16、16:9)的视频,最长可达 1000 帧。 …- 2
-
SWE-Kit – 构建自定义软件工程AI代理的开源框架
SWE-Kit项目简介 SWE-Kit 是Composio 推出的开源框架, 简化软件工程 AI 代理的开发过程。SWE-Kit提供无头 IDE 环境和 AI 原生工具,用于构建自定义编码代理,支持与多种代理框架和大型语言模型集成,降低构建复杂 AI 代理的门槛。SWE-Kit 集成文件操作、代码分析、shell 命令执行等功能,提高开发效率、提供高度的可定制性,是现代 AI 辅助软件开发的领先工…- 1
-
CogAgent-9B – 智谱AI开源 GLM-PC 的基座模型
CogAgent-9B项目简介 CogAgent-9B是基于 GLM-4V-9B 训练的专用Agent任务模型,仅依赖屏幕截图作为输入,无需HTML等文本表征。CogAgent-9B支持高分辨率图像处理,具备双语(中英文)交互能力,能预测并执行GUI操作,实现自动化任务。在多个GUI操作数据集上取得了领先成绩,模型已开源,推动大模型Agent生态的发展。CogAgent-9B可广泛应用于个人电脑、…- 1
-
DeepSeek V3 – DeepSeek开源的最新版 AI 模型,编程能力超越Claude
DeepSeek V3项目简介 DeepSeek V3是知名私募巨头幻方量化旗下人工智能公司深度求索(DeepSeek)开源的最新版AI模型,在多语言编程能力上的进步显著。在aider多语言编程测评中的表现超越了Claude 3.5 Sonnet V2等竞争对手。最新版DeepSeek-V3-0324 拥有6850亿参数,采用混合专家架构,融合多头潜在注意力和多标记预测技术,推理速度达每秒20个t…- 1
-
AgentScope – 阿里开源的多智能体开发平台
AgentScope项目简介 AgentScope是阿里巴巴集团开源的多智能体开发平台,帮助开发者轻松构建和部署多智能体应用。AgentScope提供高易用性、高鲁棒性和分布式支持,内置多种模型API和本地模型部署选项,覆盖聊天、图像合成、文本嵌入等多种任务。AgentScope包含拖拽式编程界面、交互式编程助手、实时监控功能,及丰富的开发资源,支持快速二次开发。AgentScope具备容错机制、…- 0
-
AI优质视频创作案例关于我用AI做了一部《三体》预告片
自从Runway画质和一致性更新以后,一直想再用AI做一部科幻的预告片。 所以,我就把手伸向了《三体》,话不多说,直接放视频吧。 《三体》的难度比之前的所有AI视频都要难,难点其实不是4s视频的处理。 而是电影质感的静态图。 三体的场景,大部分AI都画不出来。 Midjourney的电影质感很强,但是语义理解能力太差,很多镜头包括人体计算机、太阳系二向化等等根本画不出来。Stable Diffus…- 1