-
星火纪要 – 科大讯飞推出的会议交流总结和分析平台
星火纪要项目简介 星火纪要是科大讯飞推出的集转录、总结、翻译、分析为一体的音视频处理平台,广泛应用于通用会议、访谈、销售、培训等场景。能帮助个人高效总结会议重点内容,提升工作学习效率;辅助企业从众多会议中洞察趋势与共性问题,进行更准确的组织决策。上传1小时音频文件,5分钟转录完毕,提炼仅需1分钟,角色分离准确率超95%;提供销售、访谈等12种场景模板,转录准确率超96%,总结准确率超90%。 星火…- 0
-
rStar-Math – 微软推出的小模型复杂推理与自进化SLMs的创新技术
rStar-Math项目简介 rStar-Math是微软亚洲研究院推出的创新研究项目,基于蒙特卡洛树搜索(MCTS)驱动的深度思考,使小型语言模型(SLMs)在数学推理方面达到甚至超越OpenAI大型模型的水平。rStar-Math不依赖于从更高级模型的数据蒸馏,是用自我进化的深度思考提升模型性能。rStar-Math引入三种创新方法:代码增强的逐步验证推理轨迹合成、基于Q值的过程偏好模型(PPM…- 0
-
AutoRAG – 中科院开源的自主迭代检索模型
AutoRAG项目简介 AutoRAG是中国科学院计算技术研究所(ICT/CAS)、中国科学院的人工智能安全重点实验室及中国科学院大学的研究人员共同推出的新型自主迭代检索模型,专为大型语言模型(LLMs)设计,能增强在知识密集型任务中的表现。AutoRAG基于与检索器的多轮对话,系统地规划检索和细化查询,自主地合成基于推理的决策指令,获取和利用有价值的外部知识。AutoRAG能根据问题的复杂性和检…- 0
-
混元DiT – 腾讯混元开源的文生图扩散模型Hunyuan-DiT
混元DiT项目简介 混元DiT(Hunyuan-DiT)是由腾讯混元团队开源的一款高性能的文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够根据文本提示生成多分辨率的高质量图像。混元DiT采用了创新的网络架构,结合了双语CLIP和多语言T5编码器,通过精心设计的数据管道进行训练和优化,支持多轮对话,能够根据上下文生成并完善图像。在中文到图像生成领域,混元DiT达到了开源模…- 1
-
IterComp – 清北、牛津等多所高校联合推出的文本到图像生成框架
IterComp项目简介 IterComp是一个由清华大学、北京大学、LibAI Lab、中国科学技术大学、牛津大学和普林斯顿大学的研究人员联合推出的文本到图像生成框架。基于迭代反馈学习机制,聚合多个扩散模型的组合生成偏好,全面提升模型在处理复杂组合任务时的综合能力。IterComp首先构建一个包含多个开源模型的图库,模型在属性绑定、空间关系和非空间关系等不同方面表现出各自的优势,基于模型的偏好训…- 2
-
BiGR – 统一条件生成图像的模型框架,增强生成质量和表示能力
BiGR项目简介 BiGR是一种新型的条件图像生成模型,用紧凑的二进制潜在代码进行生成训练,增强图像的生成质量和表示能力。作为首个在同一框架内统一生成和判别任务的模型,BiGR在保持高生成质量的同时,能有效地执行视觉生成、辨别和编辑等多种视觉任务。BiGR的设计包括掩码标记预测和二进制转码器,用加权二进制交叉熵损失进行训练,重建掩码标记。BiGR的灵活性和可扩展性在不同的视觉应用中表现出色,无需针…- 1
-
夸克灵知大模型 – 夸克推出的AI学习大模型
夸克灵知大模型项目简介 夸克灵知大模型是夸克公司全新推出的智能学习大模型,具备博士生级别的推理能力。基于AI技术为用户提供分步骤题目讲解,能随时回答问题。在考研数学等题目的正确率和得分率上,夸克灵知大模型已经能与OpenAI的o1模型相媲美,远超国内其他模型。模型能帮助用户提升学习能力和效率,实现从解决一道题到掌握一类题的转变。 夸克灵知大模型优势介绍 智能搜题与解题:用户搜索各类新题和难题,获得…- 2
-
FunASR – 阿里开源的多功能语音识别工具包
FunASR项目简介 FunASR是由阿里巴巴达摩院开源的语音识别工具包,提供包括语音识别(ASR)、语音活动检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离及多说话人ASR等多种功能。FunASR工具包支持工业级语音识别模型的训练和微调,旨在帮助研究人员和开发者更高效地进行语音识别模型的研究和生产,推动语音识别技术的发展。FunASR基于提供预训练模型和易于使用的接口,使用户快速部署语…- 1