-
ViDoRAG – 通义联合中科大、上交大推出的视觉文档检索增强生成框架
ViDoRAG项目简介 ViDoRAG是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架。基于多智能体协作和动态迭代推理,解决传统方法在处理复杂视觉文档时的检索和推理局限性。ViDoRAG用高斯混合模型(GMM)的多模态混合检索策略,动态调整检索结果数量,优化文本和视觉信息的整合。框架中包含Seeker、Inspector和Answer三种智能体,分别负责快速筛选…- 1
-
我们用豆包视频大模型,生成了AI版的《红楼梦》MV
要论最近最火的AI视频生成模型,无疑就属字节豆包了。 也就是字节一口气亮出的PixelDance模型和Seaweed模型。 而且大家都说效果好,那这不就得亲自测试一波喽,而且是直接上难度的那种—— 最近抖音里很多人都在模仿林黛玉哭泣,我们不妨用“全字节系的AI”来制作一支《红楼梦》的MV。 然后啊,效果简直就是一个大写的万万没想到! 话不多说,直接展示成果: 不论是生成的多人物、画面的质量,甚至是…- 2
-
Genesis – CMU 联合 20 多所研究机构开源的生成式物理引擎
Genesis项目简介 Genesis是卡内基梅隆大学、马里兰大学、斯坦福大学、麻省理工学院等研究机构联合推出的开源生成式物理引擎,能模拟世界万物。Genesis能用简单的语言描述,快速生成精确的物理模拟,包括物体运动、人物动作和机器人策略等。引擎的特点在于高度的物理准确性、快速的模拟速度(比现实世界快约430000倍),及用户友好的Python化设计。Genesis能模拟各种材料和物理现象,提供…- 3
-
LDGen – 理想汽车推出的多语言文本到图像生成技术
LDGen项目简介 LDGen是创新的文本到图像合成技术,通过结合大型语言模型(LLMs)与扩散模型,提升文本描述到图像生成的质量和语义一致性。通过分层标题优化和人类指令技术,提取文本中的精确语义信息,基于轻量级适配器实现LLMs与图像特征的高效对齐和交互。LDGen支持零样本多语言生成,能根据多种语言的文本描述生成高质量图像,显著优于传统方法。 LDGen优势介绍 多语言零样本生成:通过将大型语…- 2
-
腾讯混元Turbo S – 腾讯推出的新一代快思考模型
腾讯混元Turbo S项目简介 腾讯混元Turbo S是腾讯推出的新一代快思考模型。模型采用创新的Hybrid-Mamba-Transformer融合架构,有效降低了传统Transformer的计算复杂度,减少了KV-Cache缓存占用,显著提升了训练和推理效率。作为业界首次将Mamba架构无损应用于超大型MoE模型的实践,Turbo S在知识、数学、推理等多个领域表现出色,与DeepSeek V…- 1
-
UniRig – 清华联合 VAST 开源的通用自动骨骼绑定框架
UniRig项目简介 UniRig是清华大学计算机系和VAST联合推出的创新自动骨骼绑定框架,用在处理复杂和多样化的3D模型。基于大型自回归模型和骨骼点交叉注意力机制,生成高质量的骨骼结构和蒙皮权重。框架引入Rig-XL数据集,包含超过14,000个3D模型,涵盖多种类别,用在训练和评估。UniRig在骨骼绑定精度和运动精度上显著优于现有的学术和商业方法,支持无缝应用在从动漫角色到复杂有机和无机结…- 2
-
谷歌Bard聊天机器人7月最新升级测评:十级中文段子手,梗图看懂,轻松应对一切疑难问题
AI聊天机器人:谷歌Bard 工具介绍:Google Bard是谷歌最近推出的类似ChatGPT的对话机器人,允许用户与一个强大的人工智能(AI)系统互动,该系统可以生成关于各种问题的文本回复。7月15日,谷歌对Bard迎来大幅升级。Bard产品负责人Jack Krawczyk表示,大家现在可以用阿拉伯语、中文、德语、印地语和西班牙语等语言与人工智能进行对话。 工具链接:https://www.a…- 0
-
DistilQwen2 – 阿里推出基于Qwen2优化的轻量级语言模型
DistilQwen2项目简介 DistilQwen2是基于Qwen2大模型用知识蒸馏技术优化得到的轻量级语言模型,能提高运算效率和降低部署成本。DistilQwen2基于深度剖析大模型、增强指令数据多样性和优化蒸馏算法,将复杂知识传递给小模型,提升指令遵循效果。DistilQwen2 的研究为开发更智能、更高效的自然语言处理应用提供技术支持,赋能更多开发者和企业基于技术创新实现商业价值。 Dis…- 0