-
FilmAgent – 哈工大联合清华推出的AI电影自动化制作工具
FilmAgent项目简介 FilmAgent是哈尔滨工业大学(深圳)的研究团队开发的基于多智能体协作框架的虚拟电影制作工具,通过自动化流程实现虚拟3D空间中的端到端电影制作。模拟传统电影工作室的工作流程,用多智能体协作来自动化虚拟电影的制作。模拟了电影制作中的关键角色,包括导演、编剧、演员和摄影师,将整个制作过程分为三个阶段:规划、剧本创作和摄影。 FilmAgent优势介绍 自动化剧本创作 剧…- 0
-
Fish Agent – FishAudio推出的端到端语音处理模型
Fish Agent项目简介 Fish Agent是FishAudio推出的创新的端到端语音处理模型,集成自动语音识别(ASR)和文本到语音(TTS)技术,无需传统的语义编码器/解码器,实现语音到语音的直接转换。模型经过700,000小时的多语言音频内容训练,支持包括英语、中文在内的多种语言,精准捕捉和生成环境音频信息。Fish Agent目前正处于测试阶段,基于不断的优化和改进,为用户提供更准确…- 1
-
AI写真生成器“妙鸭相机”免费体验版上手实测:使用门槛大降,仅需上传8张自拍,天真蓝、海马体濒危
AI写真照生成器:妙鸭相机 工具介绍:“妙鸭相机”AI写真工具,基于一个名为“提香”(Tiziano)的人脸识别生成大模型。只需用户上传20张自己的自拍照(最新更新为15张),就可以生成专属的证件照、职业照。其中,免费体验版本只需要上传8张照片即可生成。 工具链接:https://www.aieva.cn/sites/1260.html 今年7月份,…- 0
-
Frames – Runway 推出的AI图像生成模型
Frames项目简介 Frames是Runway推出的最新AI图像生成模型,在风格控制和视觉保真度方面取得巨大进步。Frames能维持风格一致性,支持广泛的创意探索,为项目建立特定外观,并生成符合用户美学的变体。基于Frames,用户能精确设计想要创造的世界的外观、感觉和氛围,在更大的创意流程中构建更多的世界。 Runway正逐步在Gen-3 Alpha和Runway API中推出Frames,便…- 0
-
PP-DocBee – 百度飞桨推出的文档图像理解多模态大模型
PP-DocBee项目简介 PP-DocBee是百度飞桨(PaddlePaddle)团队推出的专注于文档图像理解的多模态大模型。基于ViT+MLP+LLM架构,具备强大的中文文档解析能力,能高效处理文字、表格、图表等多类型文档内容。PP-DocBee在学术界权威评测中达到同参数量模型的SOTA水平,在内部业务中文场景中表现优异。PP-DocBee推理性能经过优化,响应速度更快,能保持高质量输出。P…- 1
-
StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统
StoryTeller项目简介 StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统,能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情信息,生成详细且连贯的视频描述。StoryTeller由视频分割、音频视觉角色识别和描述生成三个主要模块组成,能有效处理数分钟长的视频,在MovieQA任务中展现出比现有模型更高的准确率,比最强基线Gemini…- 1
-
流畅阅读 – 开源AI浏览器翻译插件,支持双语对照显示
流畅阅读项目简介 流畅阅读(FluentRead)是开源的浏览器翻译插件,致力于为用户提供类似母语的阅读体验。流畅阅读基于先进的AI技术,支持多种翻译引擎,包括传统机器翻译和AI大模型翻译,支持用户自定义翻译服务。核心功能包括智能翻译、双语对照显示及隐私保护,所有数据均本地存储,确保用户信息安全。与传统翻译工具相比,流畅阅读完全开源且高度可定制,适用于学术研究、工作场景和日常学习等多种用途。 流畅…- 0
-
NeMo – 英伟达推出的用于构建、定制和部署生成式AI模型
NeMo项目简介 NeMo 是由 NVIDIA 提供的端到端云原生框架,用于构建、定制和部署生成式 AI 模型。支持大型语言模型(LLMs)、多模态模型、语音识别和文本转语音(TTS)等应用。NeMo 的设计理念强调模块化和灵活性,使研究人员和企业用户能根据自己的需求选择和定制相应的AI模块。基于深度学习框架,基于优化的算法和技术,提供多模态融合能力,适用于金融、医疗、教育等多个行业,支持分布式训…- 0