小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在线教程丨小身材大「码」力,Qwen3.6-27B编程能力达旗舰级

Qwen团队推出了新版本Qwen3.6-27B,这是一个拥有270亿参数的多模态模型,支持视觉和文本理解。该模型在多个编程基准测试中表现优异,超越了前代版本,并在推理任务上取得了高分。HyperAI官网提供了快速部署该模型的教程。

在线教程丨小身材大「码」力,Qwen3.6-27B编程能力达旗舰级

HyperAI超神经
HyperAI超神经 · 2026-04-24T07:17:55Z

谷歌推出了Gemini Robotics-ER 1.6,这是一个升级的机器人模型,具备更精准的物理环境理解能力,增强了空间逻辑和多视角理解,提升了自主性,尤其在视觉理解、任务规划和成功检测方面表现优异。此外,该模型能够读取复杂仪表,并且是迄今为止最安全的机器人模型,符合安全政策。开发者可通过Gemini API和Google AI Studio访问该模型。

Gemini Robotics ER-1.6增强推理能力,助力机器人应对现实世界任务

The Keyword
The Keyword · 2026-04-14T15:00:00Z
太能打了:小卡也能跑的视觉模型!Gemma 4 本地视觉实测,截图转HTML

谷歌发布的Gemma 4开源模型在视觉理解和代码生成方面表现优异,尤其是26B版本。尽管小模型在视觉处理上有所欠缺,但在文本理解和代码生成方面依然表现良好,突显了表达能力在AI应用中的重要性。

太能打了:小卡也能跑的视觉模型!Gemma 4 本地视觉实测,截图转HTML

dotNET跨平台
dotNET跨平台 · 2026-04-05T23:56:36Z

微软与清华提出BiPS模型,通过训练阶段教会模型关注关键视觉细节,解决视觉-语言模型在推理中的错误。BiPS利用“拉”和“推”机制,提升视觉理解能力,使模型在复杂任务中更准确地识别信息,推动通用智能的发展。

AI看图一本正经胡说八道?「一拉一推」让模型看得全又准|微软x清华

量子位
量子位 · 2026-02-08T06:08:46Z
Kimi K2.5已在AI Gateway上线

Kimi K2.5是Moonshot AI最新的智能模型,支持无账户访问,具备强大的编码和视觉理解能力,能够创建动态用户界面。使用时需在AI SDK中设置为moonshotai/kimi-k2.5,AI Gateway提供统一API,支持跟踪和性能优化。

Kimi K2.5已在AI Gateway上线

Vercel News
Vercel News · 2026-01-26T13:00:00Z
GLM-Image 上线模力方舟:首个国产芯片训练的多模态图像生成模型

智谱AI与华为联合研发的GLM-Image多模态图像生成模型已开源,打破了海外模型的垄断。该模型在国产芯片上完成全流程训练,支持文本生成图像、图像编辑和风格迁移,具备高质量的视觉理解能力。

GLM-Image 上线模力方舟:首个国产芯片训练的多模态图像生成模型

Gitee 官方博客
Gitee 官方博客 · 2026-01-26T08:19:16Z

文心5.0正式发布,参数达到2.4万亿,具备全模态能力,表现优异。其在文本和视觉理解方面多次夺冠,展现出强大的知识整合与创造力。通过原生全模态建模,提升了理解与生成的协同能力,已广泛应用于多个行业,未来发展值得关注。

2.4万亿参数“最强文科生”,文心5.0正式版,你挺懂山东人啊?

量子位
量子位 · 2026-01-23T13:43:57Z
刚刚,GPT-5.2 正式发布!让打工人每周少干 10 小时,成人模式明年见

OpenAI 发布了 GPT-5.2 模型,强调职场实用性,提升了编程、长文本处理和视觉理解能力,显著节省用户时间。该模型在多个专业任务中超越人类专家,并在数学和科学问题上取得进展。此外,OpenAI 与迪士尼合作,计划推出成人模式,展现其商业化策略。

刚刚,GPT-5.2 正式发布!让打工人每周少干 10 小时,成人模式明年见

爱范儿
爱范儿 · 2025-12-11T20:35:20Z
GLM-4.6V开源:从看懂图片到自动完成任务

智谱推出GLM-4.6V系列多模态大模型,包括基础版和轻量版,支持128k tokens上下文窗口,具备原生工具调用能力,优化视觉理解。相比前代,价格降低50%,并提供免费轻量版。该模型在多模态任务中表现优异,开源资源已在主流社区发布,便于开发者集成。

GLM-4.6V开源:从看懂图片到自动完成任务

实时互动网
实时互动网 · 2025-12-09T09:47:59Z

快手推出了Keye-VL-671B-A37B多模态大语言模型,具备强大的视觉理解和视频感知能力,能够准确识别图像和视频细节并进行复杂推理,表现优于同类产品。未来将增强多轮工具调用能力,推动更深层次的视觉思考与推理。

视频理解霸榜!快手Keye-VL旗舰模型重磅开源,多模态视频感知领头羊

量子位
量子位 · 2025-11-28T09:28:55Z

阿里千问的视觉理解模型Qwen3-VL和Qwen2.5-VL在最新空间推理基准测试中表现优异,超越Gemini 3和GPT-5.1等国际顶尖模型,但仍未达到人类80分的基准。Qwen3-VL在视觉感知和多模态推理方面取得重大突破,已开源不同版本并上线千问APP供用户体验。

超越Gemini3、GPT5.1,阿里千问登顶空间推理全球冠军

量子位
量子位 · 2025-11-26T07:27:11Z

字节AI推出的新模型Doubao-Seed-Code在Agentic编程任务中表现卓越,支持视觉理解,能够根据UI设计生成代码,并快速解决各种问题。火山引擎还提供低成本套餐,推动AI编程进入“咖啡时代”。

看图写代码,3毛钱开发一个网页!字节AI Coding新模型真卷麻了

量子位
量子位 · 2025-11-11T08:50:49Z
AI 论文周报丨OCR 新模型/多模态大语言模型/下一代 DNA 测序……一文了解多领域最新进展

IDEA研究中心推出了3B规模的多模态大语言模型Rex-Omni,显著提升了目标检测性能,超越了传统模型。在COCO和LVIS基准测试中表现优异,具备多样化的视觉理解能力,为更通用的视觉感知系统奠定基础。

AI 论文周报丨OCR 新模型/多模态大语言模型/下一代 DNA 测序……一文了解多领域最新进展

HyperAI超神经
HyperAI超神经 · 2025-10-27T08:05:07Z

本文介绍了一种新的向量量化训练方案DiVeQ,采用STE技巧,无需额外的Aux Loss,使训练过程更加简洁。DiVeQ在视觉理解和生成中表现出色,解决了传统方法的超参数调节问题。

DiVeQ:一种非常简洁的VQ训练方案

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2025-10-08T13:52:00Z
谷歌最新的AI模型像你一样使用网页浏览器

谷歌推出了Gemini 2.5 AI模型,能够在浏览器中模拟人类操作,如点击、滚动和输入,执行无需API的数据任务。该模型具备视觉理解和推理能力,适用于用户界面测试和与人类设计的界面互动。目前支持13种操作,性能优于竞争对手,开发者可通过Google AI Studio和Vertex AI访问。

谷歌最新的AI模型像你一样使用网页浏览器

The Verge
The Verge · 2025-10-07T22:43:33Z

DeepMind提出了“帧链”(CoF)概念,旨在赋予视频模型通用视觉理解能力。Veo 3模型通过简单提示生成视频,展现出感知、建模和操控能力,能够处理多种视觉任务。尽管在特定任务上不及专用模型,但其性能正在快速提升,未来有望成为机器视觉的“通用基础模型”。

DeepMind率先提出CoF:视频模型有自己的思维链

量子位
量子位 · 2025-09-28T03:47:25Z

在WAIC展会上,声网展示了其升级的对话式AI引擎,具备选择性注意力和视觉理解能力,能够在嘈杂环境中精准识别用户声音并实时识别图像,广泛应用于教育和智能硬件领域,提升人机交互的自然性和流畅性。

WAIC现场最“聪明”展台!AI对话眼睛耳朵能力全打开

量子位
量子位 · 2025-07-28T07:48:46Z

文心4.5系列模型正式开源,包含10款模型,支持多模态学习,提升文本和视觉理解能力。模型在多个基准测试中表现优异,已开源至Hugging Face和GitHub,提供高效的训练和推理框架,支持多种硬件部署。

文心4.5系列模型,正式开源!

百度大脑
百度大脑 · 2025-06-30T02:46:37Z

国产AI豆包新增视频通话功能,具备实时识别、视频内容分析及问题解答能力,提升人机互动体验。

豆包可以跟你打视频了,陪我看《甄嬛传》还挺懂!难倒一众AI的“看时钟”也没难倒它

量子位
量子位 · 2025-05-26T08:48:32Z
极限测试豆包视频通话,聊了一天一夜后我发现事情并不简单

AI豆包推出视频通话功能,提升用户互动体验。通过视觉理解,豆包能识别物体并提供相关信息,成为智能助手,帮助解决实际问题,展现情感价值。

极限测试豆包视频通话,聊了一天一夜后我发现事情并不简单

爱范儿
爱范儿 · 2025-05-23T11:00:25Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码