腾讯发布的HunyuanOCR模型是一款轻量级开源OCR视觉语言模型,具备高效的文本检测、识别和复杂文档解析能力。该模型采用端到端架构,结合原生ViT和轻量LLM,克服了传统模型的局限性,已在多个平台开源,推动科研与工业应用。
腾讯混元图像3.0在全球文生图模型中排名第一,超越谷歌Nano Banana等闭源模型。该模型采用多模态架构,具备强大的语义理解和生成能力,支持多种输入输出形式,展现出卓越的技术实力。
腾讯发布的混元图像3.0是当前参数最多的开源生图模型,拥有80B参数,支持多分辨率图像生成,具备强大的指令遵从和文字渲染能力,效果媲美领先的闭源模型。
腾讯混元团队推出了首个高质量原生3D组件生成模型Hunyuan3D-Part,解决了现有3D生成方法的可控性和几何质量问题。该模型通过P3-SAM和X-Part实现高精度组件分割和生成,适用于视频游戏和3D打印等领域。
spring-ai-hunyuan项目已更新至1.0.0.2版本,新增思考链、语音识别(ASR)和语音合成(TTS)功能,提升文本生成场景的开发体验。项目源码已开源,集成简单,支持流式和阻塞式问答,适合数据驱动应用。
腾讯混元团队推出的PromptEnhancer框架,通过思维链提示重写,提升AI绘画文本-图像对齐精度,准确率提高17%。该框架无需修改模型权重,适用于多种T2I模型,助力研究人员优化提示技术,并开源高质量基准测试数据集,推动AI绘画的可控性与创作效率。
腾讯混元升级了AI绘画微调方法,通过Direct-Align和语义相对偏好优化(SRPO)显著提升了图像的真实感和美学评分,人工评估分数提高300%。新方法在32块H20上训练10分钟即可收敛,解决了传统模型的优化局限性,并支持在线调整奖励信号,生成图像质量显著提升。
腾讯开源的混元图像模型2.1支持2K高清生图,具备强大的生成效果和复杂语义理解能力,迅速成为Hugging Face全球第三热门,适用于多种视觉创作需求,助力设计师高效创作。
腾讯混元推出四款小尺寸开源模型,参数分别为0.5B、1.8B、4B和7B,适用于手机和低功耗设备。这些模型具备快速推理和高性价比,支持复杂任务处理,并已在多个应用中验证其实用性。模型的上下文窗口可处理超长内容,提升了多行业的应用潜力。
腾讯混元团队提出的MixGRPO框架结合了SDE与ODE采样,显著提升了图像生成的效率和性能,训练时间减少近50%。MixGRPO-Flash进一步将训练时间降低71%,在多个维度上优于DanceGRPO,推动了图像生成技术的发展。
腾讯发布的混元3D世界模型1.0是首个支持物理仿真的开源3D生成系统,用户可通过文本或图像一键生成高质量可交互的3D场景,兼容主流3D建模软件,适用于虚拟现实和游戏开发等领域。
腾讯推出首款开源混合推理模型Hunyuan-A13B,参数80B,激活参数13B,推理速度快且性价比高。该模型在长文理解和Agent工具调用方面表现优异,支持256K上下文窗口,适合个人开发者使用。同时,腾讯还开源了两个新数据集,以提升大语言模型的能力。
腾讯推出混元图像2.0,实现边说边画的实时图像生成,响应速度达到毫秒级。用户可通过文字或手绘输入,系统即时生成图像。该模型具备更大参数和高效图像编解码器,提升了生成效果和真实感。
腾讯挖走微软的WizardLM团队,核心成员来自北大,推出的新模型Hunyuan-Turbos已进入大模型前十。该团队曾因开源问题受挫,现加入腾讯后发展迅速。国内大厂人才竞争激烈,未来竞争将更加激烈。
完成下面两步后,将自动完成登录并继续当前操作。