-
“霉霉”“赫敏”10级中文采访视频全网刷屏!全世界都在说中国话:盘点4款超牛的AI翻译+配音工具
最近,网上的营销号全是“霉霉说中文”的视频。 EVA感慨,实在太火了! 咱们先来重温一下—— 随便打开一个抖音、微博都能刷到类似的段子。 不仅有泰勒·斯威夫特说中文,还有“赫敏”艾玛·沃特森说中文。 感慨一下——到底是大明星啊,语言天分直线拉满! 事实上,这都是AIGC技术在背后“捣鬼”。 马上就到万圣节了?,家人们可别被开口说中文的鬼怪给吓到了。 除了上述两位大美女,网上还流传着美国前总统特朗普…- 1
-
AI绘画撮合《芭比×海默》年度最奇葩CP:分享一组国外网友利用AI制作的电影宣发梗图
AI绘画工具:Midjourney 工具介绍:Midjourney一个领先的AI绘画图像生成器工具。通过创造新的人机交互方式,让人们能够更自由、更深入、更有趣地表达自己的想法和创意。利用了最先进的深度学习技术,让用户可以通过简单的文字提示,生成各种类型和风格的图像,从而实现视觉想象的无限可能。 工具链接:https://www.aieva.cn/sites/404.html 家人们,最近好莱坞也太…- 1
-
Omni Reference – Midjourney V7推出的图像参考功能
Omni Reference项目简介 Omni Reference 是 Midjourney 推出的全能参考功能,支持用户将特定的人物、物体或场景从参考图像中嵌入到生成的图像中。Omni Reference 适用于Midjourney V7 版本,支持个性化、风格化和情绪板等功能。Omni Reference 支持基于 Web 端拖拽图像或在 Discord 中使用 --oref 命令实现,基于-…- 1
-
VideoPhy – UCLA 联合谷歌推出评估视频生成模型物理常识能力的基准测试
VideoPhy项目简介 VideoPhy是UCLA和谷歌研究研究院联合推出的,首个评估视频生成模型物理常识能力的基准测试,能衡量模型生成的视频是否遵循现实世界的物理规则。VideoPhy基准包含688个描述物理互动的字幕,用在从多种文本到视频模型中生成视频,进行人类及自动评估。研究发现,即使是最佳模型,也仅有39.6%的视频能同时遵循文本提示和物理法则。VideoPhy强调视频生成模型在模拟物理…- 1
-
星火纪要 – 科大讯飞推出的会议交流总结和分析平台
星火纪要项目简介 星火纪要是科大讯飞推出的集转录、总结、翻译、分析为一体的音视频处理平台,广泛应用于通用会议、访谈、销售、培训等场景。能帮助个人高效总结会议重点内容,提升工作学习效率;辅助企业从众多会议中洞察趋势与共性问题,进行更准确的组织决策。上传1小时音频文件,5分钟转录完毕,提炼仅需1分钟,角色分离准确率超95%;提供销售、访谈等12种场景模板,转录准确率超96%,总结准确率超90%。 星火…- 1
-
Pixtral 12B – Mistral AI推出的首款多模态AI模型
Pixtral 12B项目简介 Pixtral 12B 是法国AI初创公司Mistral推出的首款多模态AI模型,能同时处理图像和文本。模型拥有 120 亿参数,模型大小约为 24GB,基于文本模型 Nemo 12B构建,能回答任意数量、任意尺寸图像的问题。Pixtral 12B 能执行为图像添加描述、统计照片中物体数量等任务。用户可以下载、微调 Pixtral 12B 模型,依据 Apache …- 1
-
Emotion-LLaMA – 多模态情绪识别与推理模型,融合音频、视觉和文本输入
Emotion-LLaMA项目简介 Emotion-LLaMA是多模态情绪识别与推理模型,融合了音频、视觉和文本输入,通过特定情绪编码器整合信息。模型基于修改版LLaMA,经指令调整以提升情感识别能力。研究者构建了MERR数据集助力训练与评估,使模型能从多场景学习并应用于现实。Emotion-LLaMA在多个数据集和挑战赛中表现优异,如在MER2024挑战赛MER-NOISE赛道中以84.52%的…- 1
-
PP-DocBee – 百度飞桨推出的文档图像理解多模态大模型
PP-DocBee项目简介 PP-DocBee是百度飞桨(PaddlePaddle)团队推出的专注于文档图像理解的多模态大模型。基于ViT+MLP+LLM架构,具备强大的中文文档解析能力,能高效处理文字、表格、图表等多类型文档内容。PP-DocBee在学术界权威评测中达到同参数量模型的SOTA水平,在内部业务中文场景中表现优异。PP-DocBee推理性能经过优化,响应速度更快,能保持高质量输出。P…- 1