小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Modular:前沿编码代理如何在MAX上构建视频扩散管道

Modular发布了Gemma 4,展示了AI编码代理在复杂系统工程任务中的能力。五个前沿模型成功重建了Wan 2.1文本到视频推理管道,证明了MAX图形API的有效性,并展示了调试和工程纪律的重要性,能够在新框架中构建完整的多模态推理系统。

Modular:前沿编码代理如何在MAX上构建视频扩散管道

Modular Blog
Modular Blog · 2026-04-16T00:00:00Z
飞桨星河社区月度报告(2026年1月)

文心大模型5.0正式上线,参数达到2.4万亿,提升了智能体与工具调用能力。PaddleOCR-VL-1.5发布,解决了曲面文档解析问题,并新增67个数据集,支持多模态推理与视频理解。社区活动包括文心Moment大会与AICA架构师培养计划,促进AI技术应用与开发者交流。

飞桨星河社区月度报告(2026年1月)

百度大脑
百度大脑 · 2026-02-10T10:55:58Z
谷歌新推出的Gemini 3 Flash以较低成本与前沿模型竞争

谷歌推出了Gemini 3 Flash,这是一款更小更快的模型,性能接近Gemini 3 Pro,尤其在多模态推理和编码方面表现优异,API使用成本相对较低。尽管成本上升,但效率和速度显著提升,适合开发者和消费者。

谷歌新推出的Gemini 3 Flash以较低成本与前沿模型竞争

The New Stack
The New Stack · 2025-12-17T16:00:25Z
谷歌推出Nano Banana Pro,具备基于推理的多模态图像合成

谷歌推出Nano Banana Pro,结合图像生成与Gemini多模态推理,能够将结构化内容转化为图表和信息图,提升语言理解与图像合成的结合。用户反馈积极,支持多语言文本渲染,适用于包装和UI预览等场景。该模型可合并多张参考图像,保持一致性并输出高分辨率图像,标志着基于推理的图像生成成为新标准。

谷歌推出Nano Banana Pro,具备基于推理的多模态图像合成

InfoQ
InfoQ · 2025-12-02T11:52:00Z

OpenAI研究科学家Łukasz Kaiser指出,AI并未减缓,而是从预训练转向推理模型。GPT-5.1是稳定性迭代,未来将重点发展多模态推理和家用机器人,AI将改变工作方式但不会消失。

Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了

量子位
量子位 · 2025-11-30T05:18:27Z

阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL在最新空间推理基准测试中表现优异,超越Gemini 3和GPT-5.1等国际顶尖模型,但仍未达到人类80分的基准。Qwen3-VL在视觉感知和多模态推理方面取得重大突破,已开源不同版本并上线千问APP供用户体验。

超越Gemini3、GPT5.1,阿里千问登顶空间推理全球冠军

量子位
量子位 · 2025-11-26T07:27:11Z

罗福莉在小米入职不到10天便发布了首篇论文,介绍了全球首个跨具身智能与自动驾驶的开源模型MiMo-Embodied。该模型在29个基准测试中表现优异,成功融合了这两个领域,解决了知识迁移难题,提升了多模态推理能力。

罗福莉首个小米成果!开源具身大模型

量子位
量子位 · 2025-11-22T07:20:13Z

谷歌于11月18日发布了Gemini 3,具备卓越的推理能力和用户需求理解能力。Gemini 3 Pro模型在AI基准测试中表现优异,特别是在数学和多模态推理方面。同时,新推出的Google Antigravity平台支持复杂软件开发任务,Gemini 3已在多个平台上线,Gemini 3 Deep Think模式也已开放给测试人员。

派早报:Google 发布 Gemini 3、Cloudflare 引发网络故障等

少数派
少数派 · 2025-11-19T00:54:21Z
谷歌推出Gemini 3 Pro

谷歌推出了Gemini 3 Pro,这是其基础模型系列的最新版本,支持多种产品,表现出色,尤其在多模态推理任务和编码方面优于前一版本。此外,谷歌还将推出Gemini 3 Deep Think,以进一步提升性能。

谷歌推出Gemini 3 Pro

The New Stack
The New Stack · 2025-11-18T22:00:27Z
Vercel与谷歌合作推出Gemini 3 Pro预览版

Gemini 3 Pro模型已通过Vercel AI Gateway发布,专注于编码和多模态推理。测试显示其指令遵循和响应一致性显著提升,正确率比前代提高17%。该模型在前端生成和多轮交互中表现优异,适合开发者使用。

Vercel与谷歌合作推出Gemini 3 Pro预览版

Vercel News
Vercel News · 2025-11-18T13:00:00Z
ICCV 2025 | 美团论文精选及多模态推理竞赛冠军方法分享

计算机视觉国际大会(ICCV)是顶级会议之一,专注于视频理解和多模态推理,涵盖时间表示、实时对话生成和视觉大语言模型等研究,推动了计算机视觉领域的发展。

ICCV 2025 | 美团论文精选及多模态推理竞赛冠军方法分享

美团技术团队
美团技术团队 · 2025-10-27T00:00:00Z
AI 在 ICPC world final 战胜人类的一天

OpenAI在比赛中表现不佳,AI能迅速解决复杂问题,而人类队伍则需多次尝试。Gemini开源代码,OpenAI未公开,可能因代码不优雅或出于战略考虑。Anthropic未参赛,因多模态推理要求高。美国大学未获金牌引发思考。

AI 在 ICPC world final 战胜人类的一天

INTJer
INTJer · 2025-09-18T00:00:00Z

本文探讨了EmbodiedOneVision模型,该模型通过交错的视觉-文本-动作预训练,实现灵活的多模态推理与动作生成。EO-1采用统一架构,结合离散自回归解码与连续流匹配,提升机器人控制的泛化能力,并强调多模态数据的重要性,提出新的训练方法以优化推理与执行的整合。

EmbodiedOneVision——单个模型中集成离散自回归解码与连续流匹配去噪:Qwen 2.5 VL加两个MLP头完成具身推理、动作生成

结构之法 算法之道
结构之法 算法之道 · 2025-09-07T14:02:10Z

快手开源了多模态推理模型Keye-VL 1.5,具备128k上下文、0.1秒视频定位和跨模态推理能力。该模型在视频理解和推理方面表现优异,能够准确判断物品出现的时间并详细描述场景,在多个基准测试中取得领先成绩。

视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理

量子位
量子位 · 2025-09-05T13:39:24Z

2025年上半年AI领域的核心趋势包括智能代理产品的兴起,AI编程的重要性提升,模型能力特别是在多模态推理方面的增强,以及行业竞争加剧,算力成为关键因素。

一份报告看尽2025上半年AI核心趋势,应用、模型、技术、行业全覆盖| 量子位智库

量子位
量子位 · 2025-08-11T06:46:27Z

SeePhys新基准显示,当前顶尖AI模型在物理图像理解方面的准确率仅为55%。该基准涵盖从初中到博士的多模态物理问题,强调视觉信息对模型推理的重要性,揭示了多模态推理的巨大挑战。

AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%

量子位
量子位 · 2025-05-29T07:08:08Z

剑桥、伦敦大学学院与谷歌的研究团队提出了一种新方法VPRL,通过图像进行推理,准确率高达80%。该方法利用强化学习优化视觉规划,显著优于传统文本推理,推动多模态推理向更直观的方向发展。

纯靠“脑补”图像,大模型推理准确率狂飙80%丨剑桥谷歌新研究

量子位
量子位 · 2025-05-21T08:53:19Z

字节推出的Seed1.5-VL多模态推理模型在60项基准测试中获得38项第一,表现优异。该模型结合532M视觉编码器和200亿参数,擅长复杂推理、OCR和图像理解。通过创新的训练方法和架构设计,模型在多模态数据处理上表现突出,但仍存在局限性。

拿下38项第一!字节发布Seed1.5-VL多模态推理模型

量子位
量子位 · 2025-05-14T06:20:16Z
Qwen 3的综合硬件需求报告

阿里云的Qwen 3是一个先进的大型语言模型,支持文本生成和多模态推理。其硬件需求根据模型大小和使用场景而异,训练需要高性能GPU和大存储,推理可使用消费级GPU或多GPU集群。推荐使用阿里云的MaaS进行经济高效的部署。

Qwen 3的综合硬件需求报告

DEV Community
DEV Community · 2025-05-04T22:25:51Z
o4-mini与Gemini 2.5 Flash:有什么区别?

2025年4月,OpenAI发布o4-mini,专注于多模态推理和工具集成,适合编码和图像分析;Google推出Gemini 2.5 Flash,支持可调推理深度及视频、音频输入。两者在性能、速度和成本效率上均有显著进展,适用于不同应用场景。

o4-mini与Gemini 2.5 Flash:有什么区别?

DEV Community
DEV Community · 2025-04-23T10:16:56Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码