-
ViTPose – 基于 Transformer 架构的人体姿态估计模型
ViTPose项目简介 ViTPose 是基于 Transformer 架构的人体姿态估计模型。以普通视觉 Transformer 作为骨干网络,通过将输入图像切块并送入 Transformer block 来提取特征,再经解码器将特征解码为热图,实现对人体关键点的精准定位。ViTPose 系列模型具有多种规模版本,如 ViTPose-B、ViTPose-L、ViTPose-H 等,可根据不同需求…- 0
- 0
-
因赛AIGC – 因赛集团推出的AI营销工具
因赛AIGC项目简介 因赛AIGC是因赛集团推出的AI营销工具,InsightGPT结合AI技术与营销策略洞察、内容创意生产、传播投放及效果转化,提升营销行业的生产力。InsightGPT不仅具备图片创作、文案生成等基础功能,还通过智能化处理降低创作门槛,提高内容品质,生成更贴合用户需求的营销内容。InsightGPT的推出,展示了因赛集团在AIGC领域的专业领先优势,为营销行业带来创新解决方案。…- 3
- 0
-
OpenCity – AI交通预测模型,卓越的零样本预测和情境适应能力
OpenCity项目简介 OpenCity是由香港大学联合华南理工大学和百度共同研发的交通预测模型。OpenCity采用Transformer架构和图神经网络,通过大规模预训练学习交通数据的时空依赖关系,具备卓越的零样本预测能力和快速情境适应能力,有效应对不同区域和时间的交通模式变化,推动智慧交通发展。 OpenCity优势介绍 通用时空建模:有效处理不同空间区域和时间的城市交通模式的多样性和变化…- 2
- 0
-
AutoMouser – AI Chrome扩展程序,实时交互跟踪自动生成测试代码
AutoMouser项目简介 AutoMouser是Chrome扩展程序,能智能地跟踪用户交互,基于OpenAI的GPT模型自动生成Selenium测试代码。通过记录用户的浏览器操作,如点击、拖动、悬停等,将其转化为结构清晰、易于维护的Python Selenium脚本,简化自动化测试的创建过程。 AutoMouser优势介绍 实时交互跟踪:能实时捕捉用户的浏览器操作,包括点击、输入、滚动等,精准…- 0
- 0
-
文心大模型X1 – 百度推出的深度思考模型
文心大模型X1项目简介 文心大模型X1是百度推出的深度思考模型。具备“长思维链”,擅长中文知识问答、文学创作、逻辑推理等。X1增加了多模态能力,能理解和生成图片,能调用工具生成代码、图表等丰富内容。基于递进式强化学习、思维链和行动链的端到端训练等关键技术,通过飞桨与文心的联合优化,大幅降低了推理成本。 文心大模型X1优势介绍 深度思考能力:作为深度思考模型,文心大模型X1具备“长思维链”,擅长中文…- 4
- 0
-
GameGen-O – 腾讯推出的游戏视频生成模型,自动生成角色、场景、动作和事件
GameGen-O项目简介 GameGen-O 是腾讯推出的一款基于 Transformer 架构的游戏视频生成模型,专门用于生成开放世界视频游戏。模型能模拟游戏引擎的多种功能,包括生成游戏角色、动态环境、复杂动作等,支持交互控制,支持用户通过文本、操作信号和视频提示来控制游戏内容。GameGen-O 的开发涉及大规模的数据收集和处理,创建首个开放世界视频游戏数据集(OGameData),经过两阶…- 3
- 0
-
VideoDoodles – Adobe推出的AI视频编辑框架
VideoDoodles项目简介 VideoDoodles是Adobe公司联合多所大学推出的AI视频编辑框架。支持用户在视频中轻松插入手绘动画,实现与视频内容的无缝融合。通过预处理视频帧,系统提供平面画布,用户可以视频上绘制动画,系统自动处理透视和遮挡效果。VideoDoodles的跟踪算法能够使动画跟随视频中的物体移动,简化了动画制作流程。 VideoDoodles优势介绍 手绘动画插入:用户可…- 3
- 0
-
MiniMates – 轻量级AI数字人项目,支持语音和表情两种驱动模式
MiniMates项目简介 MiniMates是高性能的轻量级数字人驱动算法,具备语音和表情两种驱动模式,能在普通电脑上实现实时运行。基于先进的技术架构,提供极致的速度体验和个性化定制功能,支持用户根据需求定制AI伙伴。MiniMates拥有卓越的性能和灵活性,为用户提供强大的数字人驱动解决方案,适用于多种应用场景。 MiniMates优势介绍 语音驱动:支持数字人根据语音指令进行相应的动作和表情…- 2
- 0
-
挑战用AI做一个全网最复杂的红包封面(挂件+动态)附使用教程
春节马上就要到了,一年一度的微信红包封面大战又要开始了。微信公众号奖了我一万多个红包封面。所以这次我打算调整一下做个最复杂的红包封面,也就是挂件+动态,并且借由这个测试下现在AIGC的能力边界。 不想看教程的朋友可以直接拉到最后领取红包封面。 本次测试用到的工具有: 图像生成:WHEE 视频生成:Runway 图像编辑:Photoshop + sketch 视频剪辑:剪印 图像压缩:iloveim…- 4
- 0
-
Step R-mini – 阶跃星辰推出的 Step 系列首个推理模型
Step R-mini项目简介 Step R-mini(全称Step Reasoner mini)是阶跃星辰推出的推理模型, 是 Step 系列模型家族的首个推理模型,擅长主动规划、尝试和反思,基于慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。模型既擅长解决逻辑推理、代码和数学等复杂问题,也能兼顾文学创作等通用领域。Step R-mini在数学基准测试和代码任务上表现优异,实现了文理兼修。…- 0
- 0
-
美图 AI 设计室教程 — 如何使用 AI 消除
一、功能介绍 美图秀秀照片ai修复工具,在线照片ai修复。选择上传的图片中不想出现的部分,点击开始消除。 二、使用方法 1.选择美图设计室中的 AI 消除。 2.点击上传图片,支持图片格式有 JPG、JPEG、PNG、HEIC 3. 选择画面中需要去除的元素,提供三种方式进行选择:涂抹、框选、圈选。 5.使用结束后,可点击下载图片。格式可选择 JPG、PNG 两种形式。 美图设计室站内链接:htt…- 7
- 0
-
星火纪要 – 科大讯飞推出的会议交流总结和分析平台
星火纪要项目简介 星火纪要是科大讯飞推出的集转录、总结、翻译、分析为一体的音视频处理平台,广泛应用于通用会议、访谈、销售、培训等场景。能帮助个人高效总结会议重点内容,提升工作学习效率;辅助企业从众多会议中洞察趋势与共性问题,进行更准确的组织决策。上传1小时音频文件,5分钟转录完毕,提炼仅需1分钟,角色分离准确率超95%;提供销售、访谈等12种场景模板,转录准确率超96%,总结准确率超90%。 星火…- 1
- 0
-
通义听悟官方教程系列 — 【2】一分钟了解通义听悟
?一分钟了解通义听悟 带你1分钟快速了解通义听悟通义听悟支持在会议、课程、访谈、培训等场景下实时转录和音视频转文字,智能生成总结,实时翻译打破跨语言沟通障碍。通义听悟还支持快速标记关键信息,识别结果和笔记能够轻松导出至本地或阿里云盘知识管理更高效。 下面一起来了解通义听悟的核心能力吧~ 实时语音转写,生成智能记录,搜索定位助力高效回顾 开启实时记录,完整沉淀沟通内容,精准快捷生成记录,音字对应播放…- 5
- 0
-
Crawl4AI – 基于Python的异步爬虫框架,高效同时处理多个网页
Crawl4AI项目简介 Crawl4AI是一款用 Python 开发的异步爬虫框架,专为大型语言模型(LLMs)和人工智能(AI)应用设计,简化网络爬虫和数据提取流程。基于异步架构,高效地处理多个网页,快速抓取所需数据。Crawl4AI支持多种输出格式,包括JSON、HTML、Markdown,满足不同场景的数据需求。Crawl4AI提取网页中的媒体文件、链接和元数据,提供强大的自定义功能,包括…- 5
- 0
-
Frames – Runway 推出的AI图像生成模型
Frames项目简介 Frames是Runway推出的最新AI图像生成模型,在风格控制和视觉保真度方面取得巨大进步。Frames能维持风格一致性,支持广泛的创意探索,为项目建立特定外观,并生成符合用户美学的变体。基于Frames,用户能精确设计想要创造的世界的外观、感觉和氛围,在更大的创意流程中构建更多的世界。 Runway正逐步在Gen-3 Alpha和Runway API中推出Frames,便…- 0
- 0
-
Voice Engine – OpenAI公布的AI语音合成和声音克隆模型
Voice Engine项目简介 Voice Engine是OpenAI最新公布的一项AI语音合成和声音克隆技术,能够利用简短的15秒音频样本和文本输入,生成接近原声的自然听起来的语音。该项技术自2022年底开发以来,已经被应用于OpenAI的文本到语音API和ChatGPT的语音功能中。Voice Engine的应用前景广泛,包括为儿童和非读者提供阅读辅助、翻译内容以触及全球听众、支持非言语交流…- 3
- 0
-
Aurora – 微软推出的大气基础模型
Aurora项目简介 Aurora是微软研究院推出的13亿参数的大气基础模型,基于从海量大气数据中提取有价值信息,用在预测全球天气模式、空气污染和海洋波浪等大气过程。模型用预训练和微调的架构,处理不同分辨率和压力水平的数据。Aurora在多个预测任务中表现出色,包括高分辨率天气预测、空气污染预测和热带气旋轨迹预测,计算速度比传统数值天气模型快约5000倍。模型提高了预测精度,降低计算成本,为应对气…- 0
- 0
-
AIEditor – 面向AI的下一代富文本编辑器
AIEditor项目简介 AIEditor是面向 AI 的下一代富文本编辑器,AIEditor基于Web Component开发,支持 Layui、Vue、React、Angular、Svelte 等几乎任何前端框架。AIEditor适配了 PC Web 端和手机端,并提供了 亮色 和 暗色 两个主题。AIEditor还提供了灵活的配置,开发者可以方便的开发任何文字编辑的应用。 AIEditor优…- 1
- 0
-
Scribe – ElevenLabs 推出的高精度语音转文本模型
Scribe项目简介 Scribe 是 ElevenLabs 推出的高精度语音转文本模型,专为多语言和复杂音频环境设计。支持99种语言,英语和意大利语的转录准确率分别达到96.7%和98.7%,在小语种上也有出色表现。Scribe 能区分多达32位说话者,检测笑声、音效等非语言事件,提供结构化的JSON输出,包含单词级时间戳和说话者标注。 Scribe优势介绍 多语言支持:Scribe 支持 99…- 3
- 0
-
通义听悟官方教程系列 — 【7】如何将阿里云盘文件转文字?
如何将阿里云盘文件转文字? 一、功能介绍 通义听悟支持将多种格式的阿里云盘音视频文件转文字,支持中文、英语、粤语、中英文自由说四种语言。单次最多可转写5个文件。 视频支持 : mp4格式,单个不超过1G; 音频支持 : mp3、wav、wma、aac、ogg、amr、flac格式,单个不超过500M。 二、使用方法 1. 上传转写文件 第一步:点击首页上传音视频。 第二步:选择导入阿里云盘文件,…- 4
- 0
-
MoBA – Moonshot AI 提出的新型注意力机制
MoBA项目简介 MoBA(Mixture of Block Attention)是 Moonshot AI 提出的新型注意力机制,提高大型语言模型(LLMs)处理长上下文任务的效率。通过将上下文划分为多个块(block),引入无参数的 top-k 门控机制,让每个查询 token 动态选择最相关的键值(KV)块进行注意力计算。显著降低了计算复杂度,保持了与全注意力机制相当的性能。MoBA 的核心…- 2
- 0
-
DriveDreamer4D – 基于世界模型增强4D驾驶场景重建效果的框架
DriveDreamer4D项目简介 DriveDreamer4D是用在提升自动驾驶场景4D重建质量的框架,基于世界模型先验增强4D驾驶场景的表示。框架能基于真实世界的驾驶数据合成新的轨迹视频,用明确结构化条件控制前景和背景元素的时空一致性,确保生成的数据严格遵守交通约束。DriveDreamer4D是首个基于视频生成模型改善驾驶场景中4D重建的框架,提升复杂场景和新轨迹视点下的渲染质量。 Dri…- 0
- 0
-
Augmented Physics – 将教科书静态图表生成交互式物理模拟的AI技术
Augmented Physics项目简介 Augmented Physics是一个创新的教育工具,基于集成机器学习技术,将物理教科书中的静态图表转换成互动式和嵌入式的物理模拟。工具基于先进的计算机视觉技术,比如Segment Anything和多模态大型语言模型(LLM),让用户能半自动地从教科书中提取图表,生成可交互的仿真。学生能基于实际操作探索和理解物理概念,如光学、运动学和电路等。Augm…- 0
- 0
-
StockMixer – 上海交大推出的股票价格预测架构
StockMixer项目简介 StockMixer是上海交通大学推出的用在股票价格预测的多层感知器(MLP)架构,具备简单和强大的预测能力。架构基于指标混合、时间混合和股票混合三个步骤处理和预测股票数据,有效捕捉股票指标、时间和股票间的复杂相关性。时间混合用多尺度时间片段信息,股票混合基于市场状态影响个股,实现更准确的预测。StockMixer在减少内存使用和计算成本的同时,在多个股票市场基准测试…- 1
- 0