-
LiveKit Agents – 创建实时与用户互动的多模态AI代理框架
LiveKit Agents项目简介 LiveKit Agents 是一个强大的框架,用于创建能实时通过语音、视频和数据与用户互动的多模态AI代理。框架支持 Python 编程,简化开发过程,支持开发者轻松集成语音识别、语音合成和先进的语言模型。LiveKit Agents 与 OpenAI 的实时 API 深度集成,提供超低延迟的 WebRTC 传输,确保流畅的用户体验。LiveKit Agen…- 3
-
Seed1.5-Embedding – 字节跳动 Seed 团队推出的向量模型
Seed1.5-Embedding项目简介 Seed1.5-Embedding 是字节跳动 Seed 团队最新发布的向量模型,基于 Seed1.5 (Doubao-1.5-pro) 进一步训练。模型在权威测评榜单 MTEB 上达到了中英文 SOTA 效果,在推理密集型检索任务的 BRIGHT 榜单上也取得了优异成绩。 模型采用 Siamese 双塔结构,依托 Seed1.5 预训练 LLM,通过两…- 3
-
Wonder Animation – 视频序列转换成3D动画场景的AI解决方案
Wonder Animation项目简介 Wonder Animation 是 Autodesk 旗下 Wonder Dynamics 推出的创新 AI 技术,Wonder Animation测试版现已上线Wonder Studio。Wonder Animation基于 Video to 3D Scene 技术将视频序列转换成 3D 动画场景,加速动画电影制作。Wonder Animation能处…- 3
-
SnapGen – Snap联合港科大等机构推出的移动端文生图模型
SnapGen项目简介 SnapGen是Snap Inc、香港科技大学、墨尔本大学等机构联合推出的文本到图像(T2I)扩散模型,能在移动设备上快速生成高分辨率(1024×1024像素)的图像,且只需1.4秒。模型用379M参数实现这一性能,显著减少模型大小和计算需求,同时在GenEval指标上达到0.66的高分,超越许多参数量更大的SDXL和IF-XL模型。SnapGen基于优化网络架构、跨架构知…- 3
-
Mac版本ChatGPT桌面应用实测:支持快捷启动,可协助检索长文本、总结文档与生成图像
以下文章来自于丨机器之心 Mac 用户又比 Windows 用户先行一步。 6 月 25 日,OpenAI 宣布推出适用于 macOS 的应用程序。 虽然 Mac 应用程序尚未在 Mac App Store 中提供,但用户可以直接从 OpenAI 网站下载。 下载地址:https://openai.com/chatgpt/mac/ 本月早些时候,苹果在 WWDC 2024 上宣布正在将 ChatG…- 3
-
InternVL3 – 上海 AI Lab 开源的多模态大语言模型
InternVL3项目简介 InternVL3是上海人工智能实验室开源的多模态大型语言模型(MLLM),具有卓越的多模态感知和推理能力。模型系列包括1B到78B共7个不同尺寸的版本,能同时处理文字、图片、视频等多种信息。 InternVL3采用了创新的原生多模态预训练方法,将语言和多模态学习整合到同一个预训练阶段,提升了多模态能力的同时,进一步增强了纯语言能力。模型通过混合偏好优化算法和多模态测试…- 3
-
RelightVid – 上海 AI Lab联合复旦等高校推出的视频重照明模型
RelightVid项目简介 RelightVid是上海 AI Lab、复旦大学、上海交通大学、浙江大学、斯坦福大学和香港中文大学推出用在视频重照明的时序一致性扩散模型,支持根据文本提示、背景视频或HDR环境贴图对输入视频进行细粒度和一致的场景编辑,支持全场景重照明和前景保留重照明。模型基于自定义的增强管道生成高质量的视频重照明数据对,结合真实视频和3D渲染数据,在预训练的图像照明编辑扩散框架(I…- 3
-
Mistral Medium 3 – Mistral AI推出的多模态语言模型
Mistral Medium 3项目简介 Mistral Medium 3是Mistral AI推出的多模态语言模型。模型在性能和成本之间实现平衡,接近达到Claude Sonnet 3.7模型的性能水平,成本仅为后者的1/8(每百万Token的输入成本为0.4美元,输出成本为2美元)。模型在编程和多模态理解等专业领域表现出色,适合企业级应用,支持混合云部署、定制化后训练及与企业系统的集成。Mis…- 3