智象未来推出的HiDream-O1-Image-1.5图像生成模型在全球评测中表现优异,成为中国第一。该模型在图像质量、语义遵循和复杂场景生成方面展现出强大能力,适用于广告、电商和影视等多个商业场景。其创新的全模态架构提升了多模态生成的效率和稳定性,推动了图像生成技术的发展。
本月动态包括PaddleOCR的异步能力上线,博客新增视频支持,提升用户互动。新增109个数据集,涵盖多模态生成与文档分析。社区活动包括企业级Agentic AI研讨会,探讨智能体在复杂场景中的应用与挑战。
论文提出了一个统一的世界模型框架,旨在超越任务特定知识注入的局限,强调交互、推理、记忆和多模态生成的重要性,以实现AI对复杂世界的深入理解和交互。
wshobson/agents 是一个智能自动化系统,集成多种代理和插件,支持高效软件开发,提供63个插件和85个AI代理。lss233/kirara-ai 是支持多语言的聊天机器人,兼容多个平台。google/osv-scanner 是漏洞扫描工具,提升数据库质量。isnowfy/snownlp 是处理中文文本的Python库,功能多样。open-mmlab/mmagic 是多模态生成工具箱,支持图像和视频的生成与编辑。
商汤推出的AI视频创作工具Seko已吸引10万创作者使用。该工具集成多模态生成模型,用户通过对话即可生成完整视频,支持复杂剧本拆分和一致性输出,显著降低创作成本,成为“AI短剧大师”。
生数科技于9月19日完成数亿元A轮融资,资金将用于模型研发和技术创新。该公司在多模态生成技术领域迅速发展,已覆盖200多个国家,生成视频超过4亿次。其Vidu系列产品在AI视频生成中表现突出,吸引了众多行业合作伙伴。
近年来,空间音频技术迅速发展,研究重点已转向多模态生成与语义推理。浙江大学的学者系统梳理了空间音频的表示、理解、生成任务及评测标准,撰写了综述文章ASAudio,填补了该领域的文献空白。
CreateAI发布白皮书,探讨多模态生成技术在动画制作中的应用,以《哪吒2》为例展示AI技术的优势。公司推出“Ruyi”模型以提升生成质量,并开发动漫专属AI平台,获得《金庸群侠传》和《三体》IP授权,增强市场竞争力。
OmniSVG是一种统一的可缩放矢量图形生成模型,利用预训练的视觉-语言模型进行多模态SVG生成。它通过参数化SVG命令和坐标,提升了生成复杂SVG的能力,并开源了包含200万个样本的数据集。OmniSVG在多个生成任务中表现优异,展现了在专业设计中的应用潜力。
PLAID是一种多模态生成模型,通过学习蛋白质折叠模型的潜在空间,能够同时生成蛋白质的1D序列和3D结构。该模型解决了多模态共生成问题,生成全原子结构,并支持功能和生物体提示。PLAID仅需序列数据训练,利用压缩模型提高生成效率,未来可扩展至更复杂系统的多模态生成。
本研究提出了一种新的统一离散扩散模型UniDisc,旨在解决多模态生成模型在图像与文本理解和生成中的不足,显著提升样本质量、多样性控制和生成效率。
AIxiv专栏报道Liquid框架,该框架通过VQGAN将图像编码为离散视觉token,实现多模态生成与理解的统一。Liquid无需修改现有大语言模型,降低训练成本并保留语言能力,推动多模态智能发展。实验结果表明,Liquid在视觉生成和理解任务中表现优异,验证了多模态任务的互惠关系。
本研究回顾了自2022年以来生成性人工智能在创意产业的进展,重点分析了文本到图像、视频及多模态生成技术的突破及其对内容创作的影响,同时指出传媒行业面临的通信流量挑战。
本研究提出了一种潜在语言建模(LatentLM)方法,旨在解决多模态生成模型中离散与连续数据的整合问题。通过结合因果变换器和变分自编码器,该方法在图像生成和文本到语音合成方面表现出色。
本研究提出了GATE OpenING基准,解决了开放式交互图文生成评估中数据规模和多样性不足的问题。该基准包含5400个高质量标注实例,涵盖56个真实任务,展示了IntJudge模型在评估多模态生成方法方面的优势,为未来模型发展提供指导。
本研究系统评估了视觉领域自回归模型的应用现状,分析了现有方法的贡献、优势与局限,涵盖图像、视频及多模态生成任务,为未来研究提供指导。
本研究提出Diff-2-in-1框架,解决了扩散模型在密集视觉感知任务中的应用不足,优化了多模态生成与视觉感知的结合,显著提升了生成数据的有效性和多样性。
本文介绍了去噪扩散隐式模型(DDIMs),通过非马尔科夫扩散过程显著加速采样速度,提升了10至50倍。研究探讨了基于扩散模型的图像生成方法及其生成质量的改进,并提出了新的框架以解决效率问题,展示了在多模态生成中的应用潜力。
本文介绍了JADE、i-Code V2、Ziya-VL和SynthVLM等新方法在视觉问答和多模态生成领域的应用。这些方法通过结合视觉和语言数据,提高了模型在多任务中的性能,并有效解决了数据效率和隐私问题,展现了在视觉问答任务中的竞争力。
本文提出了一种基于混合提示编码的AIGC质量评估框架,验证了其在多模态生成领域的有效性。该框架通过大型语言模型改善文本到图像生成的一致性,提升了图像质量和相似度。同时,介绍了Prompt-Guided In-Context inpainting框架,实现高效的图像修复和合成,无需精细调整。实验结果表明,该框架性能优于传统方法。
完成下面两步后,将自动完成登录并继续当前操作。