-
7000字超全拆解Sora提示词秘籍解析及竞品效果对比测评
2024年2月16日凌晨,OpenAI 正式发布了文本到视频生成模型Sora,直接生成60s视频,多角色多镜头切换的视频,还上了央视新闻。 目前 Sora 并未开放,只向少数导演艺术家开放邀请码。 至此,好莱坞的时代结束了,人人可以做视频电影的时代到来啦! 今天我们就 Sora 生成视频来拆解提示词秘籍公式,竞品视频生成效果对比,解析 Sora 优势劣势和 Sora 模型原理。 一、AIGC视频模…- 7
-
Pixel3DMM – 慕尼黑联合伦敦大学等推出的3D人脸重建框架
Pixel3DMM项目简介 Pixel3DMM是慕尼黑工业大学、伦敦大学学院和Synthesia联合推出的单图像3D人脸重建框架。框架基于DINO基础模型,引入专门的预测头,从单张RGB图像中准确重建出3D人脸的几何结构。Pixel3DMM在多个基准测试中表现出色,在处理复杂面部表情和姿态方面,显著优于现有方法。Pixel3DMM引入新的基准测试,涵盖多样的面部表情、视角和种族,为该领域的研究提供…- 2
-
Dolphin – 字节跳动开源的文档解析大模型
Dolphin项目简介 Dolphin 是字节跳动开源的轻量级、高效的文档解析大模型。基于先解析结构后解析内容的两阶段方法,第一阶段生成文档布局元素序列,第二阶段用元素作为锚点并行解析内容。Dolphin在多种文档解析任务上表现出色,性能超越GPT-4.1、Mistral-OCR等模型。Dolphin 具有322M参数,体积小、速度快,支持多种文档元素解析,包括文本、表格、公式等。Dolphin的…- 1
-
AutoBE – AI驱动的后端服务器代码生成工具
AutoBE项目简介 AutoBE 是 AI 驱动的后端服务器代码生成工具,通过用户描述需求自动生成高质量的后端代码。基于 TypeScript、NestJS、Prisma 和 Postgres 等技术栈构建,强调“氛围编码”(Vibe Coding),通过持续的用户反馈和编译器反馈来迭代优化代码。AutoBE 结合瀑布模型和螺旋模型的优点,确保代码的可靠性和安全性。 AutoBE优势介绍 需求分…- 1
-
MMaDA – 字节联合普林斯顿大学等推出的多模态扩散模型
MMaDA项目简介 MMaDA(Multimodal Large Diffusion Language Models)是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型,支持跨文本推理、多模态理解和文本到图像生成等多个领域实现卓越性能。模型用统一的扩散架构,具备模态不可知的设计,消除对特定模态组件的需求,引入混合长链推理(CoT)微调策略,统一跨模态的CoT格式,推出UniGRPO,…- 8
-
OptoChat AI – 南智光电联合南大推出的光子芯片领域专用大模型
OptoChat AI项目简介 OptoChat AI是南智光电与南京大学共同推出的国内首款光子专用大模型。模型聚焦光子领域全产业链,集成超过30万条光子芯片相关专利、文献和行业数据资源,具备强大的数据分析与智能算法能力。模型显著提升光电芯片的研发效率与产业转化速度,将传统数周的设计验证周期压缩至分钟级。模型助力光子芯片产业从传统试错式研发向智能化转变,推动全球光子产业生态的协同创新与可持续发展。…- 4
-
ScrapeGraphAI – AI网络爬虫工具,自动分析目标网页结构提取关键数据
ScrapeGraphAI项目简介 ScrapeGraphAI 是基于大型语言模型(LLM)驱动的智能网络爬虫工具包,专注于从各类网站和HTML内容中高效提取结构化数据。具备三大核心功能:SmartScraper可根据用户提示精准抓取网页中的结构化信息;SearchScraper基于AI驱动的搜索技术从搜索引擎结果中提取关键信息;Markdownify可将网页内容快速转换为整洁的Markdown格…- 1
-
Audio-SDS – NVIDIA推出的扩展文本条件音频扩散模型
Audio-SDS项目简介 Audio-SDS是NVIDIA AI研究团队推出的创新技术,将Score Distillation Sampling(SDS)技术扩展至文本条件音频扩散模型,为音频处理领域带来了重大突破。无需重新训练模型,可将任意预训练音频扩散模型转化为多功能工具,广泛应用于音效生成、音源分离、FM合成及语音增强等任务。Audio-SDS通过文本提示引导音频生成,支持高度定制化,满足…- 1