-
Emotion-LLaMA – 多模态情绪识别与推理模型,融合音频、视觉和文本输入
Emotion-LLaMA项目简介 Emotion-LLaMA是多模态情绪识别与推理模型,融合了音频、视觉和文本输入,通过特定情绪编码器整合信息。模型基于修改版LLaMA,经指令调整以提升情感识别能力。研究者构建了MERR数据集助力训练与评估,使模型能从多场景学习并应用于现实。Emotion-LLaMA在多个数据集和挑战赛中表现优异,如在MER2024挑战赛MER-NOISE赛道中以84.52%的…- 1
-
ChatGPT、阿里通义等AI机器人参加今年高考出分:干翻90%考生,有一科全员不及格
6月19日,上海人工智能实验室和司南评测体系发布了国内首个针对AI大模型参与2024高考「语数英」三科目的全卷解题能力测试的结果。 本次测试,选取了6款开源大模型以及公认的「地表最强」GPT-4o进行,考卷选择了「全国新课标I卷」。参与评测的所有开源模型,开源时间均早于今年的高考,成绩均由拥有高考评卷经验的老师进行人工阅卷评判。 让我们先看下都有哪些选手: GPT-4o:OpenAI在5月最新发布…- 4
-
美图秀秀AI修图实战案例巧用AI扩图,拯救周末出游打卡废片!
本文,将为大家送上一则非常实用的AI修图技能应用案例,专门对付那些构图失败,或者拍摄时难以处理的场景。 家人们,周末出门郊游旅行,肯定都想跟美景合照,但是无奈现如今露营远行成为消费热潮,到处都是“人从众”? ?拍照取景时经常只能裁切特写的小景,不然好多路人甲就要入镜了! 这时候就可以利用AI扩图技术,只需轻轻小手一抖,来让小景瞬间变成“大景”。 比如这张妹纸的照片,原本的构图显得比较狭窄,对于人物…- 2
-
Falcon Mamba 7B – 首个通用Mamba开源AI大模型
Falcon Mamba 7B项目简介 Falcon Mamba 7B是阿联酋技术创新研究所(TII)推出的开源AI大模型,性能超越了Meta的Llama 3.1-8B等模型。Falcon Mamba 7B采用编码器-解码器结构和多头注意力技术,优化了长序列处理能力。训练效率高,能在单个A10 24GB GPU上运行,使用了约5500GT的精选数据集,训练中采用了恒定学习率和学习率衰减策略。 Fa…- 2
-
豆包大模型1.5 – 字节跳动推出的最新版大模型
豆包大模型1.5项目简介 豆包大模型1.5 是字节跳动推出的最新版本大模型。采用大规模稀疏MoE架构,等效于7倍激活参数的Dense模型性能,综合得分在知识、代码、推理、中文等多个测评基准上优于GPT-4o和Claude 3.5 Sonnet等模型。豆包大模型1.5 还推出了豆包·实时语音模型(Doubao-1.5-realtime-voice-pro)和豆包·视觉理解模型(Doubao-1.5-…- 3
-
混元DiT – 腾讯混元开源的文生图扩散模型Hunyuan-DiT
混元DiT项目简介 混元DiT(Hunyuan-DiT)是由腾讯混元团队开源的一款高性能的文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够根据文本提示生成多分辨率的高质量图像。混元DiT采用了创新的网络架构,结合了双语CLIP和多语言T5编码器,通过精心设计的数据管道进行训练和优化,支持多轮对话,能够根据上下文生成并完善图像。在中文到图像生成领域,混元DiT达到了开源模…- 3
-
Magnitude – 开源 AI Agent 驱动的端到端测试框架
Magnitude项目简介 Magnitude 是开源的视觉 AI Agents驱动的端到端测试框架。Magnitude基于自然语言构建测试用例,用强大的推理代理规划和调整测试流程,基于快速的视觉代理执行测试。Magnitude 支持本地运行和 CI/CD 流水线集成,提供托管服务,包括托管的浏览器基础设施和 LLM 基础设施,简化测试管理。Magnitude帮助开发者高效地测试 Web 应用,确…- 1
-
AgentScope – 阿里开源的多智能体开发平台
AgentScope项目简介 AgentScope是阿里巴巴集团开源的多智能体开发平台,帮助开发者轻松构建和部署多智能体应用。AgentScope提供高易用性、高鲁棒性和分布式支持,内置多种模型API和本地模型部署选项,覆盖聊天、图像合成、文本嵌入等多种任务。AgentScope包含拖拽式编程界面、交互式编程助手、实时监控功能,及丰富的开发资源,支持快速二次开发。AgentScope具备容错机制、…- 0