全部标签

工具测评

最新随机最多浏览最多喜欢

LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术

LeviTor项目简介 LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术，结合深度信息和K-means聚类点控制视频中3D物体的轨迹，无需显式的3D轨迹跟踪。LeviTor用高质量的视频对象分割数据集进行训练，有效捕捉复杂场景中的物体运动和交互，基于用户友好的推理流程简化3D轨迹输入，让视频生成技术更加先进和易用。LeviTor的引入为3D物体轨迹控制铺平道路，拓宽创意应…
工具测评
- 1
6月30日
MoBA – Moonshot AI 提出的新型注意力机制

MoBA项目简介 MoBA（Mixture of Block Attention）是 Moonshot AI 提出的新型注意力机制，提高大型语言模型（LLMs）处理长上下文任务的效率。通过将上下文划分为多个块（block），引入无参数的 top-k 门控机制，让每个查询 token 动态选择最相关的键值（KV）块进行注意力计算。显著降低了计算复杂度，保持了与全注意力机制相当的性能。MoBA 的核心…
工具测评
- 1
6月29日
ORMBG – 开源的AI图像分割工具

ORMBG项目简介 ORMBG是开源的AI图像分割工具，由开发者schirrmacher在GitHub上发起。ORMBG专注于从图片中准确去除背景，用先进的图像处理技术，实现对图像中前景和背景的精确区分，常用于照片编辑、图像合成和自动化图像处理等领域。ORMBG是一个社区驱动的项目，鼓励全球开发者参与，贡献代码，共同推动项目的发展和完善。 ORMBG优势介绍照片编辑：快速去除人物或物体背景，便于…
工具测评
- 0
6月29日
ChatGPT对话如果跨越了一生，AI该怎么跟我们对话？

我自己做了那么多的感性的AI内容。自认为AI生成的东西，已经很难打动我了。但是直到前两天，我在网上看到一组对话，直接给我差点看的泪崩。大概是：让GPT扮演去世的妈妈，然后展开一段跨越一生的对话。原文当时没有保存，已经难以寻觅，所以我自己模拟了一段。整体有过之而无不及。一定要，看到最后。前方高能预警最后一句，瞬间破防。说真的，差点没崩住。我觉得，这才是AI或科技该有的样…
工具测评
- 0
6月29日
Grok 3 – xAI公司推出的最新一代AI模型

Grok 3项目简介 Grok 3是埃隆·马斯克旗下xAI公司推出的最新一代人工智能模型，模型被马斯克称为“地球上最聪明的人工智能”，推理能力在多项基准测试中超越了包括ChatGPT和DeepSeek在内的其他顶尖模型。 Grok 3引入了“思维链”推理能力，能像人类一样逐步处理复杂任务，显著提升了逻辑连贯性和推理准确性。具备强大的多模态功能，在数学推理、科学逻辑推理和代码写作等方面表现出色。Gr…
工具测评
- 0
6月29日
FoloUp – 开源AI语音面试平台，自动生成定制化面试问题

FoloUp项目简介 FoloUp 是开源的AI语音面试平台，能帮助企业高效地进行招聘面试。FoloUp能根据职位描述自动生成定制化的面试问题，基于AI技术与候选人进行自然、对话式的语音面试。平台能实时分析候选人的回答，生成详细的评分和洞察报告。FoloUp 提供综合仪表盘，方便企业跟踪候选人表现和整体数据。FoloUp支持一键分享面试链接，基于集成的AI技术实现智能化面试流程。 FoloUp优势…
工具测评
- 0
6月29日
Hallo2 – 复旦、百度和南大共同推出的音频驱动视频生成模型

Hallo2项目简介 Hallo2是复旦大学、百度公司和南京大学共同推出的音频驱动视频生成模型。能将单张参考图片和持续几分钟的音频输入结合起来，基于可选的文本提示调节肖像表情，生成与音频同步的高分辨率4K视频。Hallo2基于先进的数据增强技术，如补丁下降和高斯噪声，增强视频的长期视觉一致性和时间连贯性。Hallo2实现潜在代码的矢量量化和时间对齐技术，生成4K分辨率的视频，引入语义文本标签作为条…
工具测评
- 0
6月29日
VLM-R1 – 浙大 Om AI Lab 推出的视觉语言模型

VLM-R1项目简介 VLM-R1 是 Om AI Lab 推出的基于强化学习技术的视觉语言模型，通过自然语言指令精确定位图像中的目标物体，如根据描述“图中红色的杯子”找到对应的图像区域。模型基于 Qwen2.5-VL 架构，结合 DeepSeek 的 R1 方法，通过强化学习优化和监督微调（SFT）提升模型的稳定性和泛化能力。VLM-R1 在复杂场景和跨域数据上表现出色，能更好地理解视觉内容生成…
工具测评
- 0
6月29日