-
CharacterFactory – 大连理工推出的AI角色创作工具
CharacterFactory项目简介 CharacterFactory是大连理工大学IIAU团队推出的AI角色创作工具,通过扩散模型在无需参考图片的情况下,仅需2.5GB显存和10分钟训练,即可快速生成具有一致性特征的新角色图像。CharacterFactory支持文本提示词,如动作和风格,实现个性化图像生成,并能无缝融入视频和3D模型中,具有极高的训练效率和应用潜力。 CharacterFa…- 0
-
Mureka V6 – 昆仑万维推出的AI音乐创作基座模型
Mureka V6项目简介 Mureka V6是昆仑万维推出的AI音乐创作平台的基座模型,支持纯音乐生成以及10种语言的AI音乐创作。引入自研的ICL(in-context learning)技术,使声场更加开阔,人声质感和混音设计进一步强化。用户可以通过简单的步骤使用Mureka V6创作音乐。生成的音乐可以自由使用,适用于YouTube、广告、游戏背景音乐等多种场景。Mureka V6支持多种…- 2
-
KuaiFormer – 快手推出的检索框架,基于Transformer
KuaiFormer项目简介 KuaiFormer是快手技术团队推出的基于Transformer的检索框架,用在大规模内容推荐系统。基于重新定义检索流程,从传统的分数估计任务转变为Transformer驱动的“下一个动作预测”范式,有效进行实时兴趣获取和多兴趣提取,显著提升检索性能。KuaiFormer用多兴趣查询Token、自适应序列压缩机制,实现在亿级候选集上的稳定训练。已在2024 年 5 …- 2
-
超强AI音频生成图像工具「Music To Image」体验测评:我让AI听完周杰伦的歌,它还把歌里的故事画了出来
AI音频生成图像工具: 工具介绍:「音生图」应用,只要上传一段音乐,它就能根据音乐旋律和歌词,生成一张对应意境的图片。将音频上传到模型,自动将音频生成文本描述,然后使用Llama2大模型将其转换为说明性的图像描述,最后运行Stable Diffusion XL以从音频生成图像! 工具链接:https://www.aieva.cn/sites/1303.html 2023年AIGC的浪潮奔涌而来,让…- 2
-
Helix – Figure 推出的端到端通用控制模型
Helix项目简介 Helix 是 Figure 推出的通用视觉-语言-动作(VLA)模型,用于人形机器人的控制。Helix首创性地实现对机器人整个上身(包括手腕、躯干、头部和手指)的高速率(200Hz)连续控制,支持多机器人协作,多个机器人共用同一组神经网络权重完成任务。Helix 基于自然语言指令拿起从未见过的物品,表现出强大的泛化能力。Helix 的训练完全端到端,无需任务特定的微调,在低功…- 4
-
ArtCrafter – 清华联合鹏城实验室和联想共同推出的文本到图像风格迁移框架
ArtCrafter项目简介 ArtCrafter是清华大学、鹏城实验室和联想研究院共同推出的文本到图像风格迁移框架,基于扩散模型,解决传统方法在风格表达、内容一致性和输出多样性方面的局限。ArtCrafter基于嵌入重构架构实现,包含三个关键组件:基于注意力的风格提取模块,用多层架构和感知器注意力机制从参考图像中提取细腻的风格特征;文本-图像对齐增强模块,基于注意力交互将图像和文本嵌入映射到共享…- 61
-
RDT – 清华开源的双臂机器人扩散基础模型
RDT项目简介 RDT(Robotics Diffusion Transformer)是清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能在无需人类操控的情况下,自主完成复杂任务,如调酒和遛狗。RDT基于模仿学习人类动作,展现出强大的泛化能力和操作精度,能处理未见过的物体和场景。清华团队已将RDT的代码、模型和训练数据集开源,推动机器人技术的发…- 4
-
3FS – DeepSeek开源的高性能分布式文件系统
3FS项目简介 3FS(Fire-Flyer File System)是DeepSeek推出的高性能分布式文件系统,专为AI训练和推理任务设计。3FS用现代SSD和RDMA网络技术,基于分离式架构聚合数千个SSD的吞吐量和数百个存储节点的网络带宽,提供高达6.6 TiB/s的读取吞吐量。3FS提供强一致性保障,提供通用文件接口,无需学习新的存储API。3FS在大规模数据处理和推理优化中表现出色,在…- 1