小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
一文通透Qwen3-VL——在交错式MRoPE、DeepStack、文本时间戳对齐机制的基础上,先预训练,再后训练(即分别SFT、蒸馏、RL)

Qwen系列模型最新升级为Qwen3-VL,在视觉理解和视频处理方面有显著提升。引入多维旋转位置编码(MRoPE)和DeepStack技术,增强了对复杂场景的推理能力,支持长文档和长视频处理,具备更高的上下文长度和精确的时间定位能力,推动多模态理解的进步。

一文通透Qwen3-VL——在交错式MRoPE、DeepStack、文本时间戳对齐机制的基础上,先预训练,再后训练(即分别SFT、蒸馏、RL)

结构之法 算法之道
结构之法 算法之道 · 2026-05-08T07:57:45Z
基于文本条件的JEPA用于学习语义丰富的视觉表示

本文介绍了一种视觉自监督学习方法——文本条件JEPA(TC-JEPA),该方法通过图像标题减少特征预测的不确定性。TC-JEPA利用细粒度文本调节器,使图像特征更具语义意义,从而提升下游任务的表现和训练稳定性。该方法在视觉理解和推理任务中优于对比学习,展示了新的基于特征预测的视觉-语言预训练范式。

基于文本条件的JEPA用于学习语义丰富的视觉表示

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-07T00:00:00Z
一分钟读论文:《用扩散语言模型统一多模态理解与生成》

蚂蚁集团的论文《LLaDA2.0-Uni》提出了一种离散扩散语言模型,旨在统一视觉理解和图像生成。该模型通过将图像压缩为离散语义token,并利用混合专家架构实现文本和视觉token的并行处理,显著提升推理速度。LLaDA2.0-Uni在视觉理解和图像生成任务上表现优异,展现出理解与生成的连续交互能力。

一分钟读论文:《用扩散语言模型统一多模态理解与生成》

Micropaper
Micropaper · 2026-04-26T00:00:00Z
在线教程丨小身材大「码」力,Qwen3.6-27B编程能力达旗舰级

Qwen团队推出了新版本Qwen3.6-27B,这是一个拥有270亿参数的多模态模型,支持视觉和文本理解。该模型在多个编程基准测试中表现优异,超越了前代版本,并在推理任务上取得了高分。HyperAI官网提供了快速部署该模型的教程。

在线教程丨小身材大「码」力,Qwen3.6-27B编程能力达旗舰级

HyperAI超神经
HyperAI超神经 · 2026-04-24T07:17:55Z

谷歌推出了Gemini Robotics-ER 1.6,这是一个升级的机器人模型,具备更精准的物理环境理解能力,增强了空间逻辑和多视角理解,提升了自主性,尤其在视觉理解、任务规划和成功检测方面表现优异。此外,该模型能够读取复杂仪表,并且是迄今为止最安全的机器人模型,符合安全政策。开发者可通过Gemini API和Google AI Studio访问该模型。

Gemini Robotics ER-1.6增强推理能力,助力机器人应对现实世界任务

The Keyword
The Keyword · 2026-04-14T15:00:00Z
太能打了:小卡也能跑的视觉模型!Gemma 4 本地视觉实测,截图转HTML

谷歌发布的Gemma 4开源模型在视觉理解和代码生成方面表现优异,尤其是26B版本。尽管小模型在视觉处理上有所欠缺,但在文本理解和代码生成方面依然表现良好,突显了表达能力在AI应用中的重要性。

太能打了:小卡也能跑的视觉模型!Gemma 4 本地视觉实测,截图转HTML

dotNET跨平台
dotNET跨平台 · 2026-04-05T23:56:36Z

微软与清华提出BiPS模型,通过训练阶段教会模型关注关键视觉细节,解决视觉-语言模型在推理中的错误。BiPS利用“拉”和“推”机制,提升视觉理解能力,使模型在复杂任务中更准确地识别信息,推动通用智能的发展。

AI看图一本正经胡说八道?「一拉一推」让模型看得全又准|微软x清华

量子位
量子位 · 2026-02-08T06:08:46Z
Kimi K2.5已在AI Gateway上线

Kimi K2.5是Moonshot AI最新的智能模型,支持无账户访问,具备强大的编码和视觉理解能力,能够创建动态用户界面。使用时需在AI SDK中设置为moonshotai/kimi-k2.5,AI Gateway提供统一API,支持跟踪和性能优化。

Kimi K2.5已在AI Gateway上线

Vercel News
Vercel News · 2026-01-26T13:00:00Z
GLM-Image 上线模力方舟:首个国产芯片训练的多模态图像生成模型

智谱AI与华为联合研发的GLM-Image多模态图像生成模型已开源,打破了海外模型的垄断。该模型在国产芯片上完成全流程训练,支持文本生成图像、图像编辑和风格迁移,具备高质量的视觉理解能力。

GLM-Image 上线模力方舟:首个国产芯片训练的多模态图像生成模型

Gitee 官方博客
Gitee 官方博客 · 2026-01-26T08:19:16Z

文心5.0正式发布,参数达到2.4万亿,具备全模态能力,表现优异。其在文本和视觉理解方面多次夺冠,展现出强大的知识整合与创造力。通过原生全模态建模,提升了理解与生成的协同能力,已广泛应用于多个行业,未来发展值得关注。

2.4万亿参数“最强文科生”,文心5.0正式版,你挺懂山东人啊?

量子位
量子位 · 2026-01-23T13:43:57Z
刚刚,GPT-5.2 正式发布!让打工人每周少干 10 小时,成人模式明年见

OpenAI 发布了 GPT-5.2 模型,强调职场实用性,提升了编程、长文本处理和视觉理解能力,显著节省用户时间。该模型在多个专业任务中超越人类专家,并在数学和科学问题上取得进展。此外,OpenAI 与迪士尼合作,计划推出成人模式,展现其商业化策略。

刚刚,GPT-5.2 正式发布!让打工人每周少干 10 小时,成人模式明年见

爱范儿
爱范儿 · 2025-12-11T20:35:20Z
GLM-4.6V开源:从看懂图片到自动完成任务

智谱推出GLM-4.6V系列多模态大模型,包括基础版和轻量版,支持128k tokens上下文窗口,具备原生工具调用能力,优化视觉理解。相比前代,价格降低50%,并提供免费轻量版。该模型在多模态任务中表现优异,开源资源已在主流社区发布,便于开发者集成。

GLM-4.6V开源:从看懂图片到自动完成任务

实时互动网
实时互动网 · 2025-12-09T09:47:59Z

快手推出了Keye-VL-671B-A37B多模态大语言模型,具备强大的视觉理解和视频感知能力,能够准确识别图像和视频细节并进行复杂推理,表现优于同类产品。未来将增强多轮工具调用能力,推动更深层次的视觉思考与推理。

视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊

量子位
量子位 · 2025-11-28T09:28:55Z

阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL在最新空间推理基准测试中表现优异,超越Gemini 3和GPT-5.1等国际顶尖模型,但仍未达到人类80分的基准。Qwen3-VL在视觉感知和多模态推理方面取得重大突破,已开源不同版本并上线千问APP供用户体验。

超越Gemini3、GPT5.1,阿里千问登顶空间推理全球冠军

量子位
量子位 · 2025-11-26T07:27:11Z

字节AI推出的新模型Doubao-Seed-Code在Agentic编程任务中表现卓越,支持视觉理解,能够根据UI设计生成代码,并快速解决各种问题。火山引擎还提供低成本套餐,推动AI编程进入“咖啡时代”。

看图写代码,3毛钱开发一个网页!字节AI Coding新模型真卷麻了

量子位
量子位 · 2025-11-11T08:50:49Z
AI 论文周报丨OCR 新模型/多模态大语言模型/下一代 DNA 测序……一文了解多领域最新进展

IDEA研究中心推出了3B规模的多模态大语言模型Rex-Omni,显著提升了目标检测性能,超越了传统模型。在COCO和LVIS基准测试中表现优异,具备多样化的视觉理解能力,为更通用的视觉感知系统奠定基础。

AI 论文周报丨OCR 新模型/多模态大语言模型/下一代 DNA 测序……一文了解多领域最新进展

HyperAI超神经
HyperAI超神经 · 2025-10-27T08:05:07Z

本文介绍了一种新的向量量化训练方案DiVeQ,采用STE技巧,无需额外的Aux Loss,使训练过程更加简洁。DiVeQ在视觉理解和生成中表现出色,解决了传统方法的超参数调节问题。

DiVeQ:一种非常简洁的VQ训练方案

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-10-08T13:52:00Z
谷歌最新的AI模型像你一样使用网页浏览器

谷歌推出了Gemini 2.5 AI模型,能够在浏览器中模拟人类操作,如点击、滚动和输入,执行无需API的数据任务。该模型具备视觉理解和推理能力,适用于用户界面测试和与人类设计的界面互动。目前支持13种操作,性能优于竞争对手,开发者可通过Google AI Studio和Vertex AI访问。

谷歌最新的AI模型像你一样使用网页浏览器

The Verge
The Verge · 2025-10-07T22:43:33Z

DeepMind提出了“帧链”(CoF)概念,旨在赋予视频模型通用视觉理解能力。Veo 3模型通过简单提示生成视频,展现出感知、建模和操控能力,能够处理多种视觉任务。尽管在特定任务上不及专用模型,但其性能正在快速提升,未来有望成为机器视觉的“通用基础模型”。

DeepMind率先提出CoF:视频模型有自己的思维链

量子位
量子位 · 2025-09-28T03:47:25Z

在WAIC展会上,声网展示了其升级的对话式AI引擎,具备选择性注意力和视觉理解能力,能够在嘈杂环境中精准识别用户声音并实时识别图像,广泛应用于教育和智能硬件领域,提升人机交互的自然性和流畅性。

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

量子位
量子位 · 2025-07-28T07:48:46Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码