-
Animate-X – 阿里巴巴开源的通用动画生成框架
Animate-X项目简介 Animate-X是基于LDM的通用动画框架,能将静态图像转化为动态视频,擅长处理拟人化角色。 通过引入姿势指示器,增强了对运动模式的捕捉能力,包括隐式和显式运动特征。 Animate-X适用于人类角色,能处理卡通人物或游戏角色等非人类角色动画,无需严格的图像对齐。 技术主要应用广泛,包括游戏开发、电影和视频制作、虚拟现实以及社交媒体内容创作。 Animate-X优势介…- 1
- 0
-
Megrez-3B-Omni – 无问芯穹开源的端侧全模态理解模型
Megrez-3B-Omni项目简介 Megrez-3B-Omni是无问芯穹推出的全球首个端侧全模态理解开源模型,能处理图像、音频和文本三种模态数据。Megrez-3B-Omni在多个主流测试集上展现出超越34B模型的性能,推理速度领先同精度模型达300%。Megrez-3B-Omni支持中文和英文语音输入,能处理复杂多轮对话,响应图片或文字的语音提问,实现模态间的自由切换,提供直观自然的交互体验…- 0
- 0
-
LongCite – 清华推出的开源模型,提升LLMs的精准引用减少幻觉
LongCite项目简介 LongCite是由清华大学推出的项目,旨在提升大型语言模型(LLMs)在长文本问答任务中的可信度和可验证性。项目通过生成细粒度的句子级引用,使用户能验证模型的回答是否准确。核心组成部分包括LongBench-Cite评估基准、CoF自动化数据构建流程、LongCite-45k数据集,以及基于该数据集训练的LongCite-8B和LongCite-9B模型。模型能理解长文…- 0
- 0
-
Open Notebook – 开源 AI 笔记工具,自动将多格式笔记转换成博客
Open Notebook项目简介 Open Notebook是开源、注重隐私的谷歌NotebookLM替代工具,能帮助用户管理研究工作流程,生成AI辅助笔记,并与内容互动。Open Notebook支持多笔记本、多模型,包括Open AI、Anthropic等,能处理多种文件格式,提供播客生成器、集成搜索引擎和细粒度上下文管理等功能。Open Notebook鼓励社区反馈和贡献,共同构建一个强大…- 0
- 0
-
ClearerVoice-Studio – 阿里通义实验室开源的语音处理框架
ClearerVoice-Studio项目简介 ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成语音增强、分离和音视频说话人提取等功能。框架基于复数域深度学习算法,有效消除背景噪声,保留语音清晰度,保持语音失真最小化。ClearerVoice-Studio 提供先进的预训练模型和训练脚本,支持研究人员和开发者进行语音处理任务,推动语音处理技术的创新应用。 …- 0
- 0
-
Eino – 字节跳动开源的大模型应用开发框架
Eino项目简介 Eino 是字节跳动开源的大模型应用开发框架,能帮助开发者高效构建基于大模型的 AI 应用。Eino以 Go 语言为基础,具备稳定的内核、灵活的扩展性和完善的工具生态。Eino 的核心是组件化设计,基于定义不同的组件(如 ChatModel、Lambda 等)和编排方式(如 Chain 和 Graph),开发者能灵活地构建复杂的业务逻辑。Eino支持流式处理,自动处理流的拼接和复…- 1
- 0
-
Step1X-3D – 阶跃星辰联合LightIllusions开源的3D资产生成框架
Step1X-3D项目简介 Step1X-3D 是StepFun联合LightIllusions推出的高保真、可控的 3D 资产生成框架。基于严格的数据整理流程,从超过 500 万个 3D 资产中筛选出 200 万个高质量数据,创建标准化的几何和纹理属性数据集。Step1X-3D 支持多模态条件输入,如文本和语义标签,基于低秩自适应(LoRA)微调实现灵活的几何控制。Step1X-3D 推动了 3…- 0
- 0
-
SAC-KG – 通用知识图谱构建框架,能构建超百万节点的领域知识图谱
SAC-KG项目简介 SAC-KG是基于大型语言模型(LLMs)自动构建领域知识图谱的通用框架。由生成器、验证器和剪枝器三个主要组件构成,能自动从原始领域语料库中生成特定领域的一级知识图谱,确保生成的三元组的准确性。SAC-KG能构建超过百万节点规模的领域知识图谱,达到89.32%的精度,比现有最先进方法提高了20%以上的精度。这一框架有效地利用LLMs作为领域专家,生成专业且准确的多层级知识图谱…- 0
- 0
-
DreaMoving – 阿里开源的基于扩散模型的人类视频生成框架
DreaMoving项目简介 DreaMoving是一个基于扩散模型的人类视频生成框架,由阿里巴巴集团的研究团队开发。DreaMoving通过视频控制网络和内容引导器实现对人物动作和外观的精确控制,使得用户可以通过简单的文本描述或图像提示来生成个性化的视频内容。该框架的目标是生成高质量的定制化人类视频,特别是能够根据给定的目标身份和姿势序列生成目标身份移动或跳舞的视频内容。 DreaMoving的…- 0
- 0
-
OLMoE – 完全开源的大语言模型,基于混合专家(MoE)架构
OLMoE项目简介 OLMoE(Open Mixture-of-Experts Language Models)是一个完全开源的大型语言模型,基于混合专家(MoE)架构。OLMoE基于5万亿个token进行预训练,拥有70亿总参数和10亿活跃参数。模型在每一层中只有一部分专家根据输入被激活,比传统密集模型更高效,降低计算成本。OLMoE的设计在保持高性能的同时,训练速度更快,推理成本更低,能与更大…- 0
- 0
-
Goedel-Prover – 自动化数学问题的形式证明生成开源推理模型
Goedel-Prover项目简介 Goedel-Prover(哥德尔证明器)是普林斯顿大学、清华大学、清华大学等机构推出的开源大型语言模型(LLM),用在自动化数学问题的形式证明生成。基于将自然语言数学问题翻译成形式语言(如Lean 4)生成形式化证明,解决形式化数学陈述和证明稀缺的问题。Goedel-Prover用专家迭代方法训练,基于不断扩展形式证明数据集,逐步提升证明能力。在多个基准测试中…- 0
- 0
-
Open-Sora 2.0 – 潞晨科技开源的AI视频生成模型
Open-Sora 2.0项目简介 Open-Sora 2.0 是潞晨科技推出的全新开源SOTA(State-of-the-Art)视频生成模型。Open-Sora 2.0 用 20 万美元(224 张 GPU)成功训练出 11B 参数的商业级模型,相比传统高性能视频生成模型大幅降低了训练成本。模型在 VBench 和用户偏好测试中表现卓越,性能媲美甚至超越 HunyuanVideo 和 30B …- 0
- 0
-
Seed-Coder – 字节跳动开源的代码模型系列
Seed-Coder项目简介 Seed-Coder是字节跳动开源的8B规模代码模型系列,提升代码生成与理解能力。包含Base、Instruct和Reasoning三个版本,分别适用于代码补全、指令遵循和复杂推理任务。模型采用“模型中心”数据处理方式,通过自身生成和筛选高质量数据,减少人工预处理工作量。上下文长度达32K,性能在同等规模开源模型中领先。Seed-Coder使用宽松的MIT开源协议,代…- 1
- 0
-
LHM – 阿里通义开源的单图生成可动画3D人体模型
LHM项目简介 LHM(Large Animatable Human Reconstruction Model)是阿里巴巴通义实验室推出的从单张图像重建可动画化3D人体模型。基于多模态Transformer架构,融合3D几何特征和2D图像特征,用注意力机制保留服装几何与纹理细节,推出头部特征金字塔编码方案增强面部细节恢复能力。LHM用3D高斯点云(Gaussian Splatting)形式表示重建…- 0
- 0
-
CogView3 – 智谱AI推出的开源AI图像生成模型
CogView3项目简介 CogView3是清华大学联合智谱AI推出的开源AI图像生成模型,采用中继扩散技术。模型分阶段生成图像,首先创建低分辨率图像,然后通过中继超分辨率技术提升至高分辨率,提高生成效率并降低成本。CogView3在生成质量和速度上均超越现有的开源模型SDXL,实现在保持图像细节的同时,大幅减少推理时间。此外,CogView3的精简版本在仅使用SDXL十分之一推理时间的情况下,依…- 0
- 0
-
Excalidraw – 开源的在线白板工具,手绘风格实时协作
Excalidraw项目简介 Excalidraw是开源的在线白板工具,拥有简洁的手绘风格和实时协作功能。Excalidraw完全在浏览器中运行,无需安装,支持多人同时编辑同一张图,提供端到端加密。Excalidraw核心功能包括各种绘图工具、导出为PNG或SVG格式、离线可用及跨平台兼容性。Excalidraw适于快速草图、头脑风暴和远程协作,特别适合产品经理、开发者和教育工作者。 Excali…- 0
- 0
-
JoyGen – 京东和港大推出音频驱动的3D说话人脸视频生成框架
JoyGen项目简介 JoyGen是京东科技和香港大学推出的,音频驱动的3D说话人脸视频生成框架,专注于实现精确的唇部与音频同步及高质量的视觉效果。JoyGen结合音频特征和面部深度图,驱动唇部运动的生成,用单步UNet架构进行高效的视频编辑。JoyGen在训练过程中用包含130小时中文视频的高质量数据集,在开源的HDTF数据集上验证其优越性能。实验结果表明,JoyGen在唇部与音频同步和视觉质量…- 0
- 0
-
SmolVLM – Hugging Face推出的轻量级视觉语言模型
SmolVLM项目简介 SmolVLM是Hugging Face推出的轻量级视觉语言模型,专为设备端推理设计。以20亿参数量,实现了高效内存占用和快速处理速度。SmolVLM提供了三个版本以满足不同需求:SmolVLM-Base:适用于下游任务的微调。SmolVLM-Synthetic:基于合成数据进行微调。SmolVLM-Instruct:指令微调版本,可直接应用于交互式应用中。模型借鉴Idef…- 0
- 0
-
oli – 开源的终端AI编程助手,支持代码辅助与解释
oli项目简介 oli 是开源的智能代码助手,支持为开发者提供强大的编程支持。基于现代化的混合架构,结合 Rust 后端的高性能和 React/Ink 前端的交互式终端界面。oli 支持多种云 API及本地语言模型(基于 Ollama)。oli 具备强大的代理能力,支持执行文件搜索、代码编辑、命令执行等功能,帮助开发者更高效地完成任务。 oli优势介绍 代码辅助与解释:解释代码逻辑、提供代码示例及…- 0
- 0
-
CogVideoX v1.5 – 智谱最新开源的AI视频生成模型
CogVideoX v1.5项目简介 CogVideoX v1.5是智谱最新开源的AI视频生成模型。模型包含CogVideoX v1.5-5B和CogVideoX v1.5-5B-I2V两个版本,5B 系列模型支持生成5至10秒、768P分辨率、16帧的视频,I2V模型能处理任意尺寸比例的图像到视频的转换,结合即将开放内测的CogSound音效模型能自动生成匹配的AI音效。模型在图生视频质量、美学…- 0
- 0
-
Mistral Small 3.1 – Mistral AI 开源的多模态 AI 模型
Mistral Small 3.1项目简介 Mistral Small 3.1 是 Mistral AI 开源的多模态人工智能模型,有 240 亿参数,基于 Apache 2.0 许可证发布。在文本和多模态任务上表现出色,支持长达 128k tokens 的上下文窗口,推理速度可达每秒 150 个 token,低延迟且高效。模型在多项基准测试中表现优异,例如在 MMLU、MMLU Pro 等测试中…- 0
- 0
-
BiliNote – 开源 AI 视频笔记工具,自动提取视频内容生成Markdown格式
BiliNote项目简介 BiliNote 是开源的 AI 视频笔记助手,支持基于哔哩哔哩、YouTube 等视频链接,自动提取视频内容生成结构清晰、重点明确的 Markdown 格式笔记。BiliNote支持本地音频转写(如 Fast-Whisper)、大模型总结(如 OpenAI、DeepSeek、Qwen)等功能。BiliNote 提供截图插入、内容跳转链接及任务记录等实用特性。BiliNo…- 0
- 0
-
PP-TableMagic – 百度飞桨团队开源的表格识别工具
PP-TableMagic项目简介 PP-TableMagic 是百度飞桨团队推出的高性能表格识别工具,用在将图片中的表格结构化信息提取出来,转换为 HTML 等格式,进行进一步的数据处理和分析。PP-TableMagic 用自研的轻量级表格分类模型 PP-LCNet 和业界首个开源单元格检测模型 RT-DETR,及强大的表格结构识别模型 SLANeXt,结合三阶段预训练策略,提升表格识别的精度和…- 0
- 0
-
OmniEdit – 滑铁卢大学等机构开源的通用图像编辑模型
OmniEdit项目简介 OmniEdit是先进的图像编辑技术,通过结合多个专家模型的监督来训练一个通用模型,处理多种图像编辑任务。能处理不同纵横比的图像,七种不同的图像编辑任务,包括对象替换、移除、添加等,支持任意宽高比和分辨率。基于七个专家模型的监督训练确保任务覆盖,用在大型多模态模型评分提高训练数据质量,采用EditNet的新架构,提高了编辑的成功率。OmniEdit在自动评估和人工评估中均…- 0
- 0