扩散模型在图像生成方面取得了重要进展,但由于推理步骤多和分辨率限制,实际应用受到制约。为提高效率和图像保真度,提出了GenDR和GenDR-Pix模型,优化了VAE和UNet,支持高分辨率图像处理,增强了细节恢复效果,推动生成技术与实际业务的结合。
网龙与字节跳动的火山引擎签署合作协议,共同开发AIGC教育资源,构建创新教育生态,重点在技术创新、资源共创和商业应用,推动智能教育内容的开放生态,应用于智慧校园和师资培训等场景。
火山引擎发布的豆包语音识别模型2.0提升了上下文理解和多模态视觉识别能力,支持13种语言,优化了专有名词和多音字的识别,增强了语音识别的准确性和适应性。
AAAI 2026会议共录用4167篇论文,录取率为17.6%。火山引擎与北大合作的VQ-Insight论文获口头报告,提出了一种基于强化学习的视频质量理解方法,显著提升了AIGC视频生成质量,具备良好的泛化能力和解释性。
Gartner发布的2025全球AI应用开发平台魔力象限中,火山引擎凭借豆包大模型在中国排名第一、全球第五,显示出其优异的落地能力,市场逐渐成熟。
11月9日,英雄联盟S15全球总决赛圆满落幕,T1战队夺冠。虎牙直播作为官方平台,热度超过4000万,火山引擎提供技术支持,确保直播质量与低延迟。双方合作应对流量峰值,推动AI与直播技术创新,提升电竞直播体验。
NeurIPS 2025公布了5290篇论文录用结果,其中火山引擎与北大合作的Q-Insight被评为亮点文章。Q-Insight通过强化学习优化图像质量,超越传统方法,展现出卓越的准确性和泛化能力,推动音视频技术发展。
视频时序定位是视频理解的关键任务,旨在根据自然语言查询精确定位视频片段。火山引擎与南开大学联合研发的TempSamp-R1框架,通过创新的混合策略采样、非线性优势塑造和混合CoT训练,显著提升了视频时序定位的效率和精度,已在多个数据集上刷新记录,推动智能剪辑技术的发展。
火山引擎在武汉发布了四款豆包大模型,升级至1.6版本,支持多种思考长度,并推出新语音合成和复刻模型。智能模型路由功能帮助企业优化模型选择,提升效率和降低成本。预计到2025年,豆包大模型日均调用量将突破30万亿,火山引擎在公有云市场占有率达49.2%。
根据IDC报告,预计到2025年上半年,中国公有云大模型调用量将达到536.7万亿Tokens,其中火山引擎市场份额为49.2%居首,阿里云和百度智能云分别占27%和17%。到2028年,市场规模预计将达到482.4亿元人民币。
参加火山引擎的PromptPilot发布会,深入了解产品功能,尤其是提示词优化的批量评测与智能优化,显著提升效率。现场实操体验顺利,SDK展现出强大潜力,期待未来更多惊喜。
火山引擎多媒体实验室的LiveGS技术成功实现移动端实时自由视角视频直播,解决了高计算负载和带宽需求问题。该技术将在2025年SIGGRAPH展出,应用于体育直播和虚拟演出等场景,提升用户体验。
本文介绍了Claude Code Proxy代理服务的部署步骤,包括下载、安装、启动服务、登录管理界面、配置火山引擎API账户及创建API Key。用户可以灵活切换AI模型,统一管理账号,简化集成流程。
火山引擎发布豆包系列新模型,包括图像编辑模型3.0和同声传译模型2.0,提升了指令遵循和语音延迟,支持多模态检索,并推出开源开发工具和模型托管方案,助力企业AI应用落地。
音频编码器在多模态大模型中至关重要。ICME 2025音频编码器挑战赛吸引了多家知名企业参与,火山引擎凭借其技术团队在多个任务中获胜,展示了强大的音频特征提取能力,推动了音频表征的进步。
2025年6月11-12日,火山引擎原力大会在北京举行。移远通信展示了升级版Wi-Fi AI玩具解决方案,集成硬件、音频算法和物联网平台,支持高速连接和低功耗,具备多种唤醒方式,便于用户远程控制和管理。
元戎启行与火山引擎合作,计划于2025年推出具备空间语义理解、障碍物识别、文字引导牌理解和语音控车等功能的VLA模型,以提升AI汽车的安全性和智能化水平。
完成下面两步后,将自动完成登录并继续当前操作。