-
AI视频生成器Pika 1.0正式版上线!时隔四个月,实测Pika AI视频生成的进步有多神速,已经可以进行局部编辑
斯坦福大学的华人博士休学搞创业,打造AI视频生成器直接火爆AI圈! 新产品瞄准AI视频生成,刚出道就成行业顶流,引来一众大佬围观评价。 爆火!AI视频生成工具Pika 1.0正式版发布:风格迁移、填充扩图、局部修改…AI新功能拉满,Runway压力山大 Runway Gen-2最强竞品Pika,暌违半年忽然放出大招——Pika 1.0正式发布!仅成立六个月,Pika已经能够生成和编辑3D动画、动漫…- 3
-
FramePack – 斯坦福开源的AI视频生成模型
FramePack项目简介 FramePack 是斯坦福大学开源的AI视频生成模型。基于压缩输入帧的上下文长度,解决视频生成中的“遗忘”和“漂移”问题,让模型能高效处理大量帧,保持较低的计算复杂度。FramePack 仅需 6GB 显存在普通笔记本电脑上运行,支持实时生成高清视频,基于抗漂移采样技术保证视频稳定性和连贯性。FramePack提供灵活的调度策略,适用于多种应用场景,降低 AI 视频生…- 0
-
Gemini 2.5 Pro (I/O 版) – 谷歌推出的升级版多模态AI模型
Gemini 2.5 Pro (I/O 版)项目简介 Gemini 2.5 Pro (I/O 版) 是 Google 推出的 Gemini 2.5 Pro 升级版多模态AI模型,具体版本号为 Gemini 2.5 Pro Preview 05-06。模型在编程能力上取得重大突破,擅长构建交互式 Web 应用、游戏和模拟程序。用户仅需提供提示词或手绘草图加功能描述,能快速生成功能完备的应用。Gemi…- 2
-
MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法
MHA2MLA项目简介 MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效的微调方法,基于引入DeepSeek的多头潜在注意力机制(MLA),优化任何基于Transformer的LLM的推理效率,降低推理成本。MHA2MLA基于两个关键策略实现:一是partial-RoPE,移除对注意力分数贡献较小的查询和键的旋转位置编码(RoPE)维度;二是低秩近似,基于联合奇异值…- 0
-
PP-TableMagic – 百度飞桨团队开源的表格识别工具
PP-TableMagic项目简介 PP-TableMagic 是百度飞桨团队推出的高性能表格识别工具,用在将图片中的表格结构化信息提取出来,转换为 HTML 等格式,进行进一步的数据处理和分析。PP-TableMagic 用自研的轻量级表格分类模型 PP-LCNet 和业界首个开源单元格检测模型 RT-DETR,及强大的表格结构识别模型 SLANeXt,结合三阶段预训练策略,提升表格识别的精度和…- 2
-
InfiMM-WebMath-40B – 字节联合中科院开源的超大规模多模态数据集
InfiMM-WebMath-40B项目简介 InfiMM-WebMath-40B 是字节跳动和中国科学院联合开源的超大规模多模态数据集,旨在提升多模态模型的图文混合推理能力,在数学领域。数据集从 Common Crawl 中提取,经过严格的筛选、清洗和标注,包含 2400 万个网页、8500 万个图像 URL 和 400 亿个文本标记,涵盖了丰富的数学和科学相关内容。InfiMM-WebMath…- 2
-
Aurora – 微软推出的大气基础模型
Aurora项目简介 Aurora是微软研究院推出的13亿参数的大气基础模型,基于从海量大气数据中提取有价值信息,用在预测全球天气模式、空气污染和海洋波浪等大气过程。模型用预训练和微调的架构,处理不同分辨率和压力水平的数据。Aurora在多个预测任务中表现出色,包括高分辨率天气预测、空气污染预测和热带气旋轨迹预测,计算速度比传统数值天气模型快约5000倍。模型提高了预测精度,降低计算成本,为应对气…- 0
-
xLAM – Salesforce开源的AI大模型,专注函数调用功能
xLAM项目简介 xLAM 是 Salesforce 开源的一款大型语言模型,专为功能调用任务设计。模型能理解和执行基于自然语言指令的 API 调用,在自动化任务和与各种数字服务交互方面非常有用。xLAM模型在 Berkeley Function-Calling Leaderboard (BFCL) 上的测试中表现出色。 xLAM优势介绍 多语言支持:xLAM 支持多种语言,能理解和处理不同语言的…- 0