-
AddressCLIP – 中科院联合阿里云推出的端到端图像地理定位大模型
AddressCLIP项目简介 AddressCLIP 是基于 CLIP 技术构建的端到端图像地理定位模型,中科院自动化所和阿里云联合开发。模型能通过一张照片实现街道级精度的定位,直接预测图像拍摄地点的可读文本地址。与传统的图像地理定位方法不同,AddressCLIP 不依赖于复杂的 GPS 系统,是通过图像-文本对齐和图像-地理匹配技术,将图像特征与地理空间距离相结合。模型在多个数据集上的表现优…- 1
-
MCP – Anthropic 开源的模型上下文协议
MCP项目简介 MCP(Model Context Protocol,模型上下文协议)是一个开放协议,是Anthropic开源的,能实现大型语言模型(LLM)应用与外部数据源和工具之间的无缝集成。基于客户端-服务器架构,支持多个服务连接到任何兼容的客户端,提供标准化的、通用的协议共享资源、工具和提示。MCP能访问本地和远程资源,内置安全机制,保护API密钥不被泄露,是构建互联AI系统的重要工具。 …- 0
-
MagicQuill – 蚂蚁集团联合多所高校共同开源的AI互动式图像编辑工具
MagicQuill项目简介 MagicQuill是香港科技大学、蚂蚁集团、浙江大学和香港大学共同推出的开源AI互动式图像编辑工具。基于用户友好的界面和AI支持的智能建议,实现精确的局部图像编辑。用户用简单的笔触和提示词,轻松添加元素、擦除物体或改变颜色,让图像编辑变得简单、智能且高效。 MagicQuill优势介绍 AI支持的智能建议:基于AI算法预测用户意图,提供编辑建议,简化操作流程。 精确…- 0
-
Step R-mini – 阶跃星辰推出的 Step 系列首个推理模型
Step R-mini项目简介 Step R-mini(全称Step Reasoner mini)是阶跃星辰推出的推理模型, 是 Step 系列模型家族的首个推理模型,擅长主动规划、尝试和反思,基于慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。模型既擅长解决逻辑推理、代码和数学等复杂问题,也能兼顾文学创作等通用领域。Step R-mini在数学基准测试和代码任务上表现优异,实现了文理兼修。…- 0
-
快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模
什么?疯狂动物城被国产AI搬进现实了? 可灵AI 与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。 它采用了Sora相似的技术路线,结合多项自研技术创新,生成的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。 数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。 另外再划个重点,可灵不是实验室放出的Demo或者…- 3
-
AI视频生成器Pika 1.0正式版上线!时隔四个月,实测Pika AI视频生成的进步有多神速,已经可以进行局部编辑
斯坦福大学的华人博士休学搞创业,打造AI视频生成器直接火爆AI圈! 新产品瞄准AI视频生成,刚出道就成行业顶流,引来一众大佬围观评价。 爆火!AI视频生成工具Pika 1.0正式版发布:风格迁移、填充扩图、局部修改…AI新功能拉满,Runway压力山大 Runway Gen-2最强竞品Pika,暌违半年忽然放出大招——Pika 1.0正式发布!仅成立六个月,Pika已经能够生成和编辑3D动画、动漫…- 2
-
3FS – DeepSeek开源的高性能分布式文件系统
3FS项目简介 3FS(Fire-Flyer File System)是DeepSeek推出的高性能分布式文件系统,专为AI训练和推理任务设计。3FS用现代SSD和RDMA网络技术,基于分离式架构聚合数千个SSD的吞吐量和数百个存储节点的网络带宽,提供高达6.6 TiB/s的读取吞吐量。3FS提供强一致性保障,提供通用文件接口,无需学习新的存储API。3FS在大规模数据处理和推理优化中表现出色,在…- 0
-
MMAudio – 基于多模态联合训练实现高质量 AI 音频合成项目
MMAudio项目简介 MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块,确保生成的音频与视频帧精确匹配,实现高度同步。MMAudio适用于多种应用场景,包括影视制作和游戏开发,根据视频内容或文本描述生成相应的音频,提升用户体验。 MMAudio优势介绍 视频到音频合成:根据视频内容生成相应的音频,让视频和音频同步。 …- 1