-
推荐最近3个开源AI项目:3D识别大语言模型,AI文本生成3D全景图,AI读懂视频唇语
3D识别大语言模型,能够基于3D世界模型回答问题,AI走向三次元。 项目地址:https://github.com/3d-vista/3D-VisTA 文字提示词+手绘草图,生成3D全景图,类似之前介绍过的Skybox(AI一键手绘3D全景),泰裤辣! 项目地址:https://huggingface.co/spaces/Intel/ldm3d/tree/main 能读懂唇语的AI多语言视听模型,…- 0
-
PersonaMagic – 高保真人脸定制技术,根据肖像无缝生成新角色
PersonaMagic项目简介 PersonaMagic 是创新的高保真人脸定制技术,通过阶段调节的文本条件策略实现个性化图像生成。基于简单多层感知机(MLP)网络学习一系列动态嵌入,在特定时间步间隔内准确捕获人脸概念。PersonaMagic 引入了双平衡机制(Tandem Equilibrium),在文本编码器中调整自注意力响应,有效平衡文本描述与身份保持之间的关系,提升生成图像的准确性和一…- 3
-
Stagehand – AI网页浏览框架,提供简单和可扩展的网页自动化解决方案
Stagehand项目简介 Stagehand是简单和可扩展的AI网页浏览框架,是Playwright的继承者,提供act、extract和observe三个简单的API,支持自然语言驱动的网页操作。Stagehand提供一个轻量级、可配置、模块化的框架,无需复杂抽象,支持不同模型和提供商。Stagehand基于原子指令执行自动化任务,提高可靠性,步骤规划由更高层次的代理处理。 Stagehand…- 2
-
Aurora – 微软推出的大气基础模型
Aurora项目简介 Aurora是微软研究院推出的13亿参数的大气基础模型,基于从海量大气数据中提取有价值信息,用在预测全球天气模式、空气污染和海洋波浪等大气过程。模型用预训练和微调的架构,处理不同分辨率和压力水平的数据。Aurora在多个预测任务中表现出色,包括高分辨率天气预测、空气污染预测和热带气旋轨迹预测,计算速度比传统数值天气模型快约5000倍。模型提高了预测精度,降低计算成本,为应对气…- 0
-
Magnitude – 开源 AI Agent 驱动的端到端测试框架
Magnitude项目简介 Magnitude 是开源的视觉 AI Agents驱动的端到端测试框架。Magnitude基于自然语言构建测试用例,用强大的推理代理规划和调整测试流程,基于快速的视觉代理执行测试。Magnitude 支持本地运行和 CI/CD 流水线集成,提供托管服务,包括托管的浏览器基础设施和 LLM 基础设施,简化测试管理。Magnitude帮助开发者高效地测试 Web 应用,确…- 3
-
星火纪要 – 科大讯飞推出的会议交流总结和分析平台
星火纪要项目简介 星火纪要是科大讯飞推出的集转录、总结、翻译、分析为一体的音视频处理平台,广泛应用于通用会议、访谈、销售、培训等场景。能帮助个人高效总结会议重点内容,提升工作学习效率;辅助企业从众多会议中洞察趋势与共性问题,进行更准确的组织决策。上传1小时音频文件,5分钟转录完毕,提炼仅需1分钟,角色分离准确率超95%;提供销售、访谈等12种场景模板,转录准确率超96%,总结准确率超90%。 星火…- 1
-
GLM-4-Voice – 智谱AI推出的端到端情感语音模型
GLM-4-Voice项目简介 GLM-4-Voice是智谱AI推出的端到端情感语音模型,能直接理解和生成中英文语音,支持实时语音对话,能根据用户指令灵活调整语音的情感、语调、语速和方言等特征。模型由三个部分组成:GLM-4-Voice-Tokenizer负责将连续语音转换为离散token,GLM-4-Voice-Decoder将token转换回连续语音输出,GLM-4-Voice-9B基于GLM…- 3
-
StyleShot – 开源的AI图像风格迁移模型
StyleShot项目简介 StyleShot 是开源的AI图像风格迁移模型,无需额外训练即可实现任意风格到任意内容的迁移。通过风格感知编码器提取风格特征,基于内容融合编码器加强风格与内容的整合。StyleShot 能捕捉从基本元素到复杂细节的多种风格特征,并支持文本和图像驱动的风格迁移。 StyleShot优势介绍 文本驱动风格迁移:用户可以提供文本描述和风格参考图像,StyleShot 将生成…- 4