-
Gen2Act – 谷歌、卡内基梅隆、斯坦福联合推出生成人类视频引导机器人操作策略
Gen2Act项目简介 Gen2Act是由谷歌、卡内基梅隆大学和斯坦福大学共同推出的一种机器人操作策略,基于预测网络数据中的运动信息来生成人类视频,并将视频用在引导机器人执行新任务。策略基于大量可用的网络视频数据,避免直接生成机器人视频的复杂性。Gen2Act的核心在于零样本的人类视频生成,结合预训练的视频生成模型和少量的机器人交互数据训练策略。在真实世界的应用中,Gen2Act展现强大的泛化能力…- 0
- 0
-
HourVideo – 李飞飞和吴佳俊团队推出的长视频理解基准数据集
HourVideo项目简介 HourVideo是斯坦福大学李飞飞和吴佳俊团队推出的长视频理解基准数据集,包含500个第一人称视角视频,时长20至120分钟,覆盖77种日常活动,能评估多模态模型对长视频的理解能力。数据集基于一系列任务,如总结、感知、视觉推理和导航,测试模型对视频中多个时间片段信息的识别和综合能力,推动长视频理解技术的发展。 HourVideo优势介绍 长视频理解评估:基于包含长达一…- 0
- 0
-
ReCamMaster – 浙大联合快手等推出的视频重渲染框架
ReCamMaster项目简介 ReCamMaster 是浙江大学、快手科技等联合推出的视频重渲染框架,能根据新的相机轨迹重新生成视频内容。通过预训练模型和帧维度条件机制,结合多相机同步数据集和相机姿态条件,实现视频视角、运动轨迹的灵活调整。用户可上传视频并指定轨迹,系统会生成新的视角视频,广泛应用于视频创作、后期制作、教育等领域,为视频内容带来全新视角和动态效果,提升创作自由度和质量。 ReCa…- 0
- 0
-
R2R – AI 检索增强生成应用开发平台,支持多模态内容处理、混合搜索、知识图谱构建
R2R项目简介 R2R是先进的AI检索系统,专注于Retrieval-Augmented Generation(增强型检索生成)。R2R集成多模态内容摄取、混合搜索、知识图谱构建、GraphRAG聚类分析、用户和文档管理等核心功能。R2R基于RESTful API提供服务,支持快速部署,支持用户用直观的配置文件和开源React+Next.js管理仪表板进行交互。R2R简化了AI应用的开发,提高检索…- 0
- 0
-
DeepSeek-V2.5-1210 – DeepSeek V2.5 的最终版微调模型,支持联网搜索
DeepSeek-V2.5-1210项目简介 DeepSeek-V2.5-1210是 DeepSeek 推出的 DeepSeek V2 系列收官AI模型,DeepSeek V2.5 的最终版微调模型。模型基于Post-Training迭代,在数学、编程、写作和角色扮演等方面实现能力提升(DeepSeek-V2.5-1210 在数学任务的完成率提升至82.8%,在实时编码得分提高至34.38%)。D…- 2
- 0
-
GLM-4-Plus – 智谱AI最新推出的旗舰大模型,性能全面提升
GLM-4-Plus项目简介 GLM-4-Plus是智谱AI最新推出的高智能旗舰大模型,在语言理解和长文本处理上取得突破,采用创新技术如PPO,显著提升推理和指令遵循能力。GLM-4-Plus在多个关键指标上与GPT-4o等顶尖模型相媲美,现已开放API服务,并已集成到”智谱清言APP”中,提供流畅的多模态交互体验。 GLM-4-Plus功能特色 全面的语言理解能力:GLM-4-Plus在语言理解…- 1
- 0
-
Promptim – AI提示优化库,自动迭代优化、生成最佳配置
Promptim项目简介 Promptim是实验性的AI提示优化库,基于自动化流程提升AI系统在特定任务上的提示效果。用户提供初始提示、数据集和自定义评估器,Promptim能自动运行优化循环,生成更优的提示。这一过程提高了AI任务的性能,支持用人工反馈进一步指导优化,实现更精准的AI系统调优。Promptim的目标是简化AI提示的调整和优化工作,让AI系统更加高效和智能。 Promptim优势介…- 1
- 0
-
TinyVLA – 华东师范和上海大学推出面向机器人操控VLA模型
TinyVLA项目简介 TinyVLA是一种面向机器人操控的视觉-语言-动作(VLA)模型,由华东师范大学和上海大学团队推出。针对现有VLA模型的不足,如推理速度慢和需要大量数据预训练,提出解决方案。TinyVLA基于轻量级的多模态模型和扩散策略解码器,显著提高推理速度,减少对大规模数据集的依赖。模型在模拟和真实机器人平台上经过广泛测试,证明在速度、数据效率以及多任务学习和泛化能力方面优于现有的先…- 1
- 0
-
Motion Anything – 腾讯联合京东等高校推出的多模态运动生成框架
Motion Anything项目简介 Motion Anything 是澳大利亚国立大学、悉尼大学、腾讯、麦吉尔大学、京东等机构推出的多模态运动生成框架,根据文本、音乐或两者的组合生成高质量、可控的人类运动。Motion Anything引入基于注意力的掩码建模方法,实现对运动序列中关键帧和动作的细粒度控制,解决现有方法无法根据条件优先生成动态内容的问题。框架基于时间自适应和空间对齐变换器,有效…- 1
- 0
-
TeleChat2-115B – 中国电信AI研究院推出的开源星辰语义大模型
TeleChat2-115B项目简介 TeleChat2-115B是由中国电信人工智能研究院(TeleAI)研发的大型语言模型,属于星辰语义大模型系列。基于国产算力进行训练,采用10万亿Tokens的中英文高质量语料。与前代模型相比,TeleChat2-115B在通用问答、知识类、代码类和数学类任务上的性能显著提升。模型在多个评测榜单上取得优异成绩,如C-Eval评测Open Access模型综合…- 0
- 0
-
Whispo – AI语音转录工具,一键录音与转写
Whispo项目简介 Whispo是AI驱动的语音转录工具,支持用户按住Ctrl键录制语音,在释放键时自动将转录的文本插入到正在用的任何支持文本输入的应用程序中。工具的数据处理完全在本地进行,确保数据的安全性和隐私性。Whispo基于先进的OpenAI Whisper技术进行语音识别,支持用自定义API URL使用用户的转录服务。Whispo支持用大型语言模型进行转录后的文本处理,提高转录的准确性…- 0
- 0
-
豆包1.5·UI-TARS – 字节豆包推出的 GUI Agent 模型
豆包1.5·UI-TARS项目简介 豆包1.5·UI-TARS是字节豆包推出的面向图形界面交互(GUI)的Agent模型。模型基于感知、推理和动作执行等类人能力,与图形界面进行连续、流畅的交互。模型将视觉理解、逻辑推理、界面元素定位和操作整合在单一模型中,无需预定义工作流程或人工规则,实现端到端的任务自动化。豆包1.5·UI-TARS 已在火山方舟平台上线。 豆包1.5·UI-TARS优势介绍 图…- 0
- 0
-
微信接入人工智能对话聊天机器人教程 — 云端部署人工智能对话机器人
AI奇点网工具使用教程丨微信接入人工智能对话聊天机器人教程 云端部署人工智能对话聊天机器人 单击下面的按钮来分叉此存储库并使用 Railway 进行部署! 1.配置开启Railway 填写以下空白: 您分叉的存储库名称(可以是您喜欢的任何名称) 选择是否设为私有(也由您决定) 环境变量(如何获取OpenAI API密钥,请参阅获取您的OpenAI API密钥) 请注意: 确保环境变量是在 Rail…- 1
- 0
-
Mistral Medium 3 – Mistral AI推出的多模态语言模型
Mistral Medium 3项目简介 Mistral Medium 3是Mistral AI推出的多模态语言模型。模型在性能和成本之间实现平衡,接近达到Claude Sonnet 3.7模型的性能水平,成本仅为后者的1/8(每百万Token的输入成本为0.4美元,输出成本为2美元)。模型在编程和多模态理解等专业领域表现出色,适合企业级应用,支持混合云部署、定制化后训练及与企业系统的集成。Mis…- 2
- 0