-
7000字超全拆解Sora提示词秘籍解析及竞品效果对比测评
2024年2月16日凌晨,OpenAI 正式发布了文本到视频生成模型Sora,直接生成60s视频,多角色多镜头切换的视频,还上了央视新闻。 目前 Sora 并未开放,只向少数导演艺术家开放邀请码。 至此,好莱坞的时代结束了,人人可以做视频电影的时代到来啦! 今天我们就 Sora 生成视频来拆解提示词秘籍公式,竞品视频生成效果对比,解析 Sora 优势劣势和 Sora 模型原理。 一、AIGC视频模…- 7
-
Pixel3DMM – 慕尼黑联合伦敦大学等推出的3D人脸重建框架
Pixel3DMM项目简介 Pixel3DMM是慕尼黑工业大学、伦敦大学学院和Synthesia联合推出的单图像3D人脸重建框架。框架基于DINO基础模型,引入专门的预测头,从单张RGB图像中准确重建出3D人脸的几何结构。Pixel3DMM在多个基准测试中表现出色,在处理复杂面部表情和姿态方面,显著优于现有方法。Pixel3DMM引入新的基准测试,涵盖多样的面部表情、视角和种族,为该领域的研究提供…- 2
-
ScrapeGraphAI – AI网络爬虫工具,自动分析目标网页结构提取关键数据
ScrapeGraphAI项目简介 ScrapeGraphAI 是基于大型语言模型(LLM)驱动的智能网络爬虫工具包,专注于从各类网站和HTML内容中高效提取结构化数据。具备三大核心功能:SmartScraper可根据用户提示精准抓取网页中的结构化信息;SearchScraper基于AI驱动的搜索技术从搜索引擎结果中提取关键信息;Markdownify可将网页内容快速转换为整洁的Markdown格…- 1
-
HRAvatar – 清华联合IDEA推出的单目视频生成3D头像技术
HRAvatar项目简介 HRAvatar是清华大学联合IDEA团队推出的单目视频重建技术,支持从普通单目视频中生成高质量、可重光照的3D头像。HRAvatar用可学习的形变基和线性蒙皮技术,基于精准的表情编码器减少追踪误差,提升重建质量。HRAvatar将头像外观分解为反照率、粗糙度和菲涅尔反射等属性,结合物理渲染模型,实现真实的重光照效果。HRAvatar在多个指标上优于现有方法,支持实时渲染…- 2
-
Dolphin – 字节跳动开源的文档解析大模型
Dolphin项目简介 Dolphin 是字节跳动开源的轻量级、高效的文档解析大模型。基于先解析结构后解析内容的两阶段方法,第一阶段生成文档布局元素序列,第二阶段用元素作为锚点并行解析内容。Dolphin在多种文档解析任务上表现出色,性能超越GPT-4.1、Mistral-OCR等模型。Dolphin 具有322M参数,体积小、速度快,支持多种文档元素解析,包括文本、表格、公式等。Dolphin的…- 1
-
OptoChat AI – 南智光电联合南大推出的光子芯片领域专用大模型
OptoChat AI项目简介 OptoChat AI是南智光电与南京大学共同推出的国内首款光子专用大模型。模型聚焦光子领域全产业链,集成超过30万条光子芯片相关专利、文献和行业数据资源,具备强大的数据分析与智能算法能力。模型显著提升光电芯片的研发效率与产业转化速度,将传统数周的设计验证周期压缩至分钟级。模型助力光子芯片产业从传统试错式研发向智能化转变,推动全球光子产业生态的协同创新与可持续发展。…- 2
-
FastVLM – 苹果推出的高效视觉语言模型
FastVLM项目简介 FastVLM是苹果推出的高效的视觉语言模型(VLM),能提升高分辨率图像处理的效率和性能。模型引入FastViTHD新型混合视觉编码器,有效减少视觉token数量,显著降低编码时间。FastVLM在保持与现有VLM相似性能的同时,大幅提升处理速度,例如在LLaVA-1.5设置中,相比其他模型,将首次生成token的时间(TTFT)缩短3.2倍。FastVLM在多种VLM基…- 1
-
Seed1.5-Embedding – 字节跳动 Seed 团队推出的向量模型
Seed1.5-Embedding项目简介 Seed1.5-Embedding 是字节跳动 Seed 团队最新发布的向量模型,基于 Seed1.5 (Doubao-1.5-pro) 进一步训练。模型在权威测评榜单 MTEB 上达到了中英文 SOTA 效果,在推理密集型检索任务的 BRIGHT 榜单上也取得了优异成绩。 模型采用 Siamese 双塔结构,依托 Seed1.5 预训练 LLM,通过两…- 2