-
OmniParser – 微软推出的屏幕解析工具,将UI截图转换为结构化数据
OmniParser项目简介 OmniParser是微软研究院推出的屏幕解析工具,将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型(如GPT-4V)的UI代理系统的性能,基于准确识别可交互图标和理解截图元素的语义,增强代理执行任务的能力。OmniParser用微调过的模型提取屏幕中的交互区域和元素功能语义,在多个基准测试中提升操作的精确度和代理的性能,无需依赖额外信息如H…- 6
-
MindLLM – 耶鲁联合剑桥等机构推出的医疗领域 AI 模型
MindLLM项目简介 MindLLM 是耶鲁大学、达特茅斯学院和剑桥大学联合推出的AI模型,能将脑部功能性磁共振成像(fMRI)信号解码为自然语言文本。MindLLM基于一个主体无关(subject-agnostic)的 fMRI 编码器和一个大型语言模型(LLM)实现高性能解码,引入脑指令调优(Brain Instruction Tuning,BIT)技术,捕捉 fMRI 信号中的多样化语义信…- 6
-
DeepSeek-V2.5-1210 – DeepSeek V2.5 的最终版微调模型,支持联网搜索
DeepSeek-V2.5-1210项目简介 DeepSeek-V2.5-1210是 DeepSeek 推出的 DeepSeek V2 系列收官AI模型,DeepSeek V2.5 的最终版微调模型。模型基于Post-Training迭代,在数学、编程、写作和角色扮演等方面实现能力提升(DeepSeek-V2.5-1210 在数学任务的完成率提升至82.8%,在实时编码得分提高至34.38%)。D…- 5
-
CogSound – 智谱AI最新推出的音效模型
CogSound项目简介 CogSound是智谱AI最新推出的音效模型,能为无声视频增添动人的音效。 基于GLM-4V的视频理解能力,CogSound能精准识别理解视频背后的语义和情感,为无声视频添加与之相匹配的音频内容,可以生成更复杂的音效,如爆炸、水流、乐器、动物叫声、交通工具声等。模型的推出标志着智谱AI在视频生成领域的技术进步,特别是在提升视频的多模态体验方面,增强视频的沉浸感和真实感。 …- 5
-
ScrapeGraphAI – AI网络爬虫工具,自动分析目标网页结构提取关键数据
ScrapeGraphAI项目简介 ScrapeGraphAI 是基于大型语言模型(LLM)驱动的智能网络爬虫工具包,专注于从各类网站和HTML内容中高效提取结构化数据。具备三大核心功能:SmartScraper可根据用户提示精准抓取网页中的结构化信息;SearchScraper基于AI驱动的搜索技术从搜索引擎结果中提取关键信息;Markdownify可将网页内容快速转换为整洁的Markdown格…- 5
-
AI优质视频创作案例AI数字人李小龙带你探索千年“龙之国”
甲辰龙年,时差岛邀约李小龙,为你讲述中国龙的史诗。龙是中国人几千年的想象,在现代社会离我们有点远了,但中国人一直自称龙的传人,因为龙融进我们的血脉,成了一种精气神!- 5
-
OptoChat AI – 南智光电联合南大推出的光子芯片领域专用大模型
OptoChat AI项目简介 OptoChat AI是南智光电与南京大学共同推出的国内首款光子专用大模型。模型聚焦光子领域全产业链,集成超过30万条光子芯片相关专利、文献和行业数据资源,具备强大的数据分析与智能算法能力。模型显著提升光电芯片的研发效率与产业转化速度,将传统数周的设计验证周期压缩至分钟级。模型助力光子芯片产业从传统试错式研发向智能化转变,推动全球光子产业生态的协同创新与可持续发展。…- 5
-
HK-O1aw – HKGAI团队联合北大团队推出的慢思考范式法律推理大模型
HK-O1aw项目简介 HK-O1aw是香港生成式AI研发中心(HKGAI)旗下AI for Reasoning团队(HKAIR)与北京大学对齐团队(PKU-Alignment Team)合作推出的全球首个慢思考范式法律推理大模型。HK-O1aw在合同法、消费者权益保护法等多个法律领域表现出色,能深入分析复杂法律文本和案例,提供逻辑严密的法律意见。模型采用O1风格数据集和训练,侧重慢思考和链式推理…- 5