-
LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术
LeviTor项目简介 LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术,结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。LeviTor用高质量的视频对象分割数据集进行训练,有效捕捉复杂场景中的物体运动和交互,基于用户友好的推理流程简化3D轨迹输入,让视频生成技术更加先进和易用。LeviTor的引入为3D物体轨迹控制铺平道路,拓宽创意应…- 1
-
MoBA – Moonshot AI 提出的新型注意力机制
MoBA项目简介 MoBA(Mixture of Block Attention)是 Moonshot AI 提出的新型注意力机制,提高大型语言模型(LLMs)处理长上下文任务的效率。通过将上下文划分为多个块(block),引入无参数的 top-k 门控机制,让每个查询 token 动态选择最相关的键值(KV)块进行注意力计算。显著降低了计算复杂度,保持了与全注意力机制相当的性能。MoBA 的核心…- 1
-
ORMBG – 开源的AI图像分割工具
ORMBG项目简介 ORMBG是开源的AI图像分割工具,由开发者schirrmacher在GitHub上发起。ORMBG专注于从图片中准确去除背景,用先进的图像处理技术,实现对图像中前景和背景的精确区分,常用于照片编辑、图像合成和自动化图像处理等领域。ORMBG是一个社区驱动的项目,鼓励全球开发者参与,贡献代码,共同推动项目的发展和完善。 ORMBG优势介绍 照片编辑:快速去除人物或物体背景,便于…- 0
-
ChatGPT对话如果跨越了一生,AI该怎么跟我们对话?
我自己做了那么多的感性的AI内容。 自认为AI生成的东西,已经很难打动我了。 但是直到前两天,我在网上看到一组对话,直接给我差点看的泪崩。 大概是:让GPT扮演去世的妈妈,然后展开一段跨越一生的对话。 原文当时没有保存,已经难以寻觅,所以我自己模拟了一段。 整体有过之而无不及。 一定要,看到最后。 前 方 高 能 预 警 最后一句,瞬间破防。 说真的,差点没崩住。 我觉得,这才是AI或科技该有的样…- 0
-
Grok 3 – xAI公司推出的最新一代AI模型
Grok 3项目简介 Grok 3是埃隆·马斯克旗下xAI公司推出的最新一代人工智能模型,模型被马斯克称为“地球上最聪明的人工智能”,推理能力在多项基准测试中超越了包括ChatGPT和DeepSeek在内的其他顶尖模型。 Grok 3引入了“思维链”推理能力,能像人类一样逐步处理复杂任务,显著提升了逻辑连贯性和推理准确性。具备强大的多模态功能,在数学推理、科学逻辑推理和代码写作等方面表现出色。Gr…- 0
-
FoloUp – 开源AI语音面试平台,自动生成定制化面试问题
FoloUp项目简介 FoloUp 是开源的AI语音面试平台,能帮助企业高效地进行招聘面试。FoloUp能根据职位描述自动生成定制化的面试问题,基于AI技术与候选人进行自然、对话式的语音面试。平台能实时分析候选人的回答,生成详细的评分和洞察报告。FoloUp 提供综合仪表盘,方便企业跟踪候选人表现和整体数据。FoloUp支持一键分享面试链接,基于集成的AI技术实现智能化面试流程。 FoloUp优势…- 0
-
Hallo2 – 复旦、百度和南大共同推出的音频驱动视频生成模型
Hallo2项目简介 Hallo2是复旦大学、百度公司和南京大学共同推出的音频驱动视频生成模型。能将单张参考图片和持续几分钟的音频输入结合起来,基于可选的文本提示调节肖像表情,生成与音频同步的高分辨率4K视频。Hallo2基于先进的数据增强技术,如补丁下降和高斯噪声,增强视频的长期视觉一致性和时间连贯性。Hallo2实现潜在代码的矢量量化和时间对齐技术,生成4K分辨率的视频,引入语义文本标签作为条…- 0
-
VLM-R1 – 浙大 Om AI Lab 推出的视觉语言模型
VLM-R1项目简介 VLM-R1 是 Om AI Lab 推出的基于强化学习技术的视觉语言模型,通过自然语言指令精确定位图像中的目标物体,如根据描述“图中红色的杯子”找到对应的图像区域。模型基于 Qwen2.5-VL 架构,结合 DeepSeek 的 R1 方法,通过强化学习优化和监督微调(SFT)提升模型的稳定性和泛化能力。VLM-R1 在复杂场景和跨域数据上表现出色,能更好地理解视觉内容生成…- 0