小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
MiniMax M3在AI Gateway上

MiniMax M3已在Vercel AI Gateway上线,具备1M-token上下文窗口和多模态功能,专注于软件工程、终端工具使用和多轮协作。用户可通过AI SDK使用M3,支持文本和图像输入,AI Gateway提供统一API,便于模型调用和性能优化。

MiniMax M3在AI Gateway上

Vercel News
Vercel News · 2026-05-31T07:00:00Z
将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

快手发布了多模态大模型Keye-VL-2.0-30B-A3B,具备深度视频理解能力,采用DSA机制处理超长视频上下文,提升推理效率和准确性。该模型能够精准识别视频细节,提供高情商建议,并在复杂任务中展现强大的逻辑推理能力,标志着快手在多模态理解和自动化调度方面的重大进展,推动内容生产智能化。

将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

量子位
量子位 · 2026-05-26T10:17:39Z
被市场低估的,不止Google ?

谷歌在I/O大会前发布了Gemini Omni,具备生成教学视频和统一多模态功能,用户可通过一个对话框完成写作、图像生成和视频剪辑等任务,标志着AI Agent向全模态智能转型。国内公司Minimax在多模态领域表现突出,预计将迎来快速增长,全模态智能的应用将逐步融入日常生活,提升工作效率。

被市场低估的,不止Google ?

TechWeb 全站精华
TechWeb 全站精华 · 2026-05-20T03:34:33Z
BalCapRL:一种基于强化学习的多模态大语言模型图像描述的平衡框架

本文介绍了一种名为BalCapRL的平衡强化学习框架,旨在优化多模态大语言模型的图像描述。该框架通过奖励解耦归一化和长度条件奖励掩蔽,显著提升了描述的实用性、覆盖率和语言质量,克服了现有方法在描述质量上的局限性,多个模型的性能均有显著提高。

BalCapRL:一种基于强化学习的多模态大语言模型图像描述的平衡框架

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-11T00:00:00Z

谷歌扩展了Gemini API的文件搜索工具,支持多模态数据和自定义元数据,提升了检索增强生成系统的能力。新功能包括图像与文本的联合处理和页面引用,帮助用户更准确地找到信息并验证来源,使应用程序在处理大量数据时更高效、可靠。

Gemini API 文件搜索现已支持多模态:构建高效、可验证的检索增强生成系统

The Keyword
The Keyword · 2026-05-05T18:00:00Z

graphify-dotnet 是一款专注于代码分析的多模态知识图谱构建工具。它通过多阶段流水线处理文件,提取概念与关系,构建知识图谱,帮助开发者更好地理解项目架构,并为 AI 编程助手提供结构化上下文,从而提升代码生成的质量与可靠性。

Graphify-DotNet:AI 驱动的 .NET 代码知识图谱构建工具

dotNET跨平台
dotNET跨平台 · 2026-05-03T00:10:47Z
小米正式开源 MiMo 系列模型,顺手送100万亿Token

小米开源了MiMo-V2.5系列大模型,包括MiMo-V2.5-Pro和MiMo-V2.5,支持复杂任务和多模态处理,采用MIT协议,允许自由商用和微调。同时启动“Orbit百万亿Token计划”,向全球开发者赠送100万亿Token,促进模型应用。首日已适配多种AI芯片,方便开发者使用。

小米正式开源 MiMo 系列模型,顺手送100万亿Token

dotNET跨平台
dotNET跨平台 · 2026-04-29T00:01:32Z
打工人五一自救指南:把活全甩给AI,准备免打扰出门

DuMate是百度智能云开发的AI助手,支持多模态理解与生成,能够高效处理复杂任务,如整理报告、生成简报和视频总结。用户可通过IM平台远程指挥,节省时间,适合假期应急办公。新用户输入邀请码可获得积分福利。

打工人五一自救指南:把活全甩给AI,准备免打扰出门

量子位
量子位 · 2026-04-27T12:19:37Z
【效果逆天】零样本工业缺陷改变工业质检,颠覆YOLO系列模型效果

最近的零样本测试表明,利用多模态和Transformer大模型可以高效检测工业缺陷,如裂纹和污垢。这项技术实现了零样本检测,显著提高了项目交付速度,适用于多种样品和行业转换。

【效果逆天】零样本工业缺陷改变工业质检,颠覆YOLO系列模型效果

gloomyfish
gloomyfish · 2026-04-27T03:16:11Z
一分钟读论文:《用扩散语言模型统一多模态理解与生成》

蚂蚁集团的论文《LLaDA2.0-Uni》提出了一种离散扩散语言模型,旨在统一视觉理解和图像生成。该模型通过将图像压缩为离散语义token,并利用混合专家架构实现文本和视觉token的并行处理,显著提升推理速度。LLaDA2.0-Uni在视觉理解和图像生成任务上表现优异,展现出理解与生成的连续交互能力。

一分钟读论文:《用扩散语言模型统一多模态理解与生成》

Micropaper
Micropaper · 2026-04-26T00:00:00Z
Claude Opus 4.7 发布:更费token了,用户评价两极

Anthropic发布了新模型Claude Opus 4.7,增强了编程和多模态能力,但用户反馈两极。新模型在处理复杂任务时更严谨,支持高分辨率图像输入。然而,token消耗显著增加,部分功能下降,尤其在文案撰写和长上下文检索方面。用户在法律和金融领域需谨慎使用。

Claude Opus 4.7 发布:更费token了,用户评价两极

TechWeb 全站精华
TechWeb 全站精华 · 2026-04-17T04:02:03Z
移远通信携多模态智能机器人平台Q-Robotbox参加GEIA Asia 2026

移远通信在上海参加GEIA Asia 2026,展示了其多模态智能机器人平台Q-Robotbox。该平台集成了视觉、听觉和动觉,支持自主移动机器人和智能割草机器人,具备高集成度和低部署门槛。Q-Robotbox依托高性能芯片,实现自然交互,已在多个场景完成算法验证,并正在扩展应用范围。

移远通信携多模态智能机器人平台Q-Robotbox参加GEIA Asia 2026

全球TMT-美通国际
全球TMT-美通国际 · 2026-04-16T07:21:16Z

NotebookLM在2025至2026年间转变为一个多模态创作工作室,支持创意项目的整个生命周期。其五大关键功能包括深度研究引擎、思维导图、视觉工作室、音频和视频概述,以及高容量多模态笔记本。这些功能提升了创意架构师的研究效率、概念可视化、演示文稿生成和复杂决策的结构清晰度。

创意架构师的NotebookLM

KDnuggets
KDnuggets · 2026-04-15T16:00:27Z
Meta亿元天团首个大模型交卷!余家辉宋飏Jason Wei耗时九个月,一雪Llama前耻

Meta推出的新模型Muse Spark经过9个月研发,专注于多模态理解和推理,表现优异,推动股价上涨,标志着Meta重回AI前列。尽管在编程和Agent任务上仍有不足,但整体性能显著提升。

Meta亿元天团首个大模型交卷!余家辉宋飏Jason Wei耗时九个月,一雪Llama前耻

量子位
量子位 · 2026-04-09T01:49:48Z
Meta重新进入人工智能竞赛,推出新模型Muse Spark

Meta推出新AI模型Muse Spark,旨在提升产品智能化,支持多模态输入,处理复杂科学和健康问题。该模型将逐步在WhatsApp、Instagram等平台上线,未来计划开源。

Meta重新进入人工智能竞赛,推出新模型Muse Spark

The Verge
The Verge · 2026-04-08T16:12:54Z
卡帕西没做完的,开源社区48小时搞定了!完全体知识库,token省70倍

开源社区在48小时内推出Graphify工具,自动生成知识图谱,节省71.5倍token消耗。该工具支持多模态处理,用户只需一条命令即可生成交互式知识图谱,降低使用门槛。

卡帕西没做完的,开源社区48小时搞定了!完全体知识库,token省70倍

量子位
量子位 · 2026-04-07T05:50:13Z
OpenClaw v2026.4.5更新:原生视频生成,看起来非常稳定!

OpenClaw v2026.4.5更新引入视频和音乐生成功能,增强多模态能力,支持多语言界面,优化工作流和审批系统,提升记忆处理和性能稳定性,简化配置管理,推动AI应用可控化发展。

OpenClaw v2026.4.5更新:原生视频生成,看起来非常稳定!

极道
极道 · 2026-04-06T06:37:00Z
GPT-6,曝光了

OpenAI计划于4月14日发布GPT-6,该模型性能提升40%,支持多模态处理,具备200万Token的上下文窗口。OpenAI将重心放在GPT-6上,目标是实现AGI。同时,GPT-Image 2也备受关注,展现出更强的生成能力。算力成为AI竞争的关键因素。

GPT-6,曝光了

量子位
量子位 · 2026-04-05T04:49:33Z
美团盯上原生多模态!路子还很野:把图像语音都当成Token来预测

美团LongCat提出的DiNA原生多模态架构将图像、语音和文本统一为离散Token,突破了传统模型的局限。该模型通过共享参数和机制,实现了更高效的理解与生成,推动了多模态AI的发展。

美团盯上原生多模态!路子还很野:把图像语音都当成Token来预测

量子位
量子位 · 2026-04-03T06:24:01Z

Google于4月2日发布了开源模型Gemma 4,强调参数效率和本地运行能力,支持多种设备和语言,具备多模态处理能力,适用于Agent工作流开发。该模型采用Apache 2.0许可证,兼容主流工具链,推动AI在移动端和边缘计算的应用。

派早报:Google 发布 Gemma 4 开源系列模型、智谱发布 GLM-5V-Turbo 多模态模型等

少数派
少数派 · 2026-04-03T00:39:38Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码