-
Auto-Deep-Research – 香港大学开源的全自动个人 AI 助理
Auto-Deep-Research项目简介 Auto-Deep-Research 是香港大学黄超教授实验室开源的全自动个人 AI 助理,作为 OpenAI Deep Research 的开源替代方案。基于 AutoAgent 框架开发,专注于深度研究功能,采用模块化的多 Agent 架构,包括 Web Agent、Coding Agent 和 Local File Agent。 Agent 分别…- 0
-
四大巨头的AI绘图模型综合评测,究竟哪款AI绘图模型更厉害!
都知道AI卷,卷大语言模型,卷多模态,卷视频,反正啥玩意都都卷。 AI绘图作为跟大语言模型并驾齐驱的最成熟的模态之一。 那更是卷到飞起。 前几天,Meta这个搅屎棍,正式公开上线了他们的AI绘图模型,叫Meta Imagine,就是这个玩意。 网址:https://imagine.meta.com/ (对魔法要求比较高,找个美国的干净的节点) 最关键的是吧,他免费。 你说他是不是搅屎棍。。。 但是…- 0
-
Agentic Object Detection – 吴恩达团队推出的Agent目标检测技术
Agentic Object Detection项目简介 Agentic Object Detection 是吴恩达团队开发的新型目标检测技术,通过智能代理(Agent)系统实现无需标注数据的目标检测。用户仅需输入文字提示,AI 基于推理能力识别图像中的目标,精准定位其位置和属性。 无需传统的目标检测所需的大量标注数据和复杂训练过程,降低了开发和应用成本。能基于目标的内在属性(如颜色、形状)、上下…- 1
-
LLaMA-Omni – 中科院推出的低延迟高质量的语音交互模型
LLaMA-Omni项目简介 LLaMA-Omni 是中国科学院计算技术研究所和中国科学院大学研究者推出的新型模型架构,用于实现与大型语言模型(LLM)的低延迟、高质量语音交互。通过集成预训练的语音编码器、语音适配器、大型语言模型(LLM)和一个实时语音解码器,直接从语音指令中快速生成文本和语音响应,省略传统的必须先将语音转录为文本的步骤,提高了响应速度。模型基于最新的 LLaMA-3.1-8B-…- 1
-
DistilQwen2.5-R1 – 阿里推出的小型系列深度推理模型
DistilQwen2.5-R1项目简介 DistilQwen2.5-R1 是阿里巴巴推出的基于知识蒸馏技术的小型化系列深度推理模型,包含3B、7B、14B和32B四个参数量级的模型。DistilQwen2.5-R1将超大规模模型(如 DeepSeek-R1)的推理能力迁移到较小的模型中,实现更高的计算效率和更低的资源消耗。DistilQwen2.5-R1适用于需要高效计算和快速响应主要应用,例如…- 1
-
Pixtral 12B – Mistral AI推出的首款多模态AI模型
Pixtral 12B项目简介 Pixtral 12B 是法国AI初创公司Mistral推出的首款多模态AI模型,能同时处理图像和文本。模型拥有 120 亿参数,模型大小约为 24GB,基于文本模型 Nemo 12B构建,能回答任意数量、任意尺寸图像的问题。Pixtral 12B 能执行为图像添加描述、统计照片中物体数量等任务。用户可以下载、微调 Pixtral 12B 模型,依据 Apache …- 1
-
MIDI – AI 3D场景生成技术,能将单张图像转化为360度3D场景
MIDI项目简介 MIDI(Multi-Instance Diffusion for Single Image to 3D Scene Generation)是先进的3D场景生成技术,能在短时间内将单张图像转化为高保真度的3D场景。通过智能分割输入图像,识别出场景中的独立元素,再基于多实例扩散模型,结合注意力机制,生成360度的3D场景。具有强大的全局感知能力和细节表现力,能在40秒内完成生成,对…- 2
-
Grok-2 – xAI公司推出的新一代AI模型
Grok-2项目简介 Grok-2是xAI公司推出的新一代AI模型,提供卓越的聊天、编程和推理能力。在学术基准测试中,Grok-2在GPQA、MMLU、MMLU-Pro和MATH等领域的表现超越了前代Grok-1.5,与行业前沿模型相媲美。Grok-2在视觉任务MathVista和DocVQA上展现出行业领先的水平,并与Black Forest Labs的FLUX.1模型合作,扩展了Grok-2的…- 1