小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
MiniMax M3在AI Gateway上

MiniMax M3已在Vercel AI Gateway上线,具备1M-token上下文窗口和多模态功能,专注于软件工程、终端工具使用和多轮协作。用户可通过AI SDK使用M3,支持文本和图像输入,AI Gateway提供统一API,便于模型调用和性能优化。

MiniMax M3在AI Gateway上

Vercel News
Vercel News · 2026-05-31T07:00:00Z
将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

快手发布了多模态大模型Keye-VL-2.0-30B-A3B,具备深度视频理解能力,采用DSA机制处理超长视频上下文,提升推理效率和准确性。该模型能够精准识别视频细节,提供高情商建议,并在复杂任务中展现强大的逻辑推理能力,标志着快手在多模态理解和自动化调度方面的重大进展,推动内容生产智能化。

将DSA注意力引入多模态,快手Keye2.0开启强化推理新范式

量子位
量子位 · 2026-05-26T10:17:39Z
被市场低估的,不止Google ?

谷歌在I/O大会前发布了Gemini Omni,具备生成教学视频和统一多模态功能,用户可通过一个对话框完成写作、图像生成和视频剪辑等任务,标志着AI Agent向全模态智能转型。国内公司Minimax在多模态领域表现突出,预计将迎来快速增长,全模态智能的应用将逐步融入日常生活,提升工作效率。

被市场低估的,不止Google ?

TechWeb 全站精华
TechWeb 全站精华 · 2026-05-20T03:34:33Z
BalCapRL:一种基于强化学习的多模态大语言模型图像描述的平衡框架

本文介绍了一种名为BalCapRL的平衡强化学习框架,旨在优化多模态大语言模型的图像描述。该框架通过奖励解耦归一化和长度条件奖励掩蔽,显著提升了描述的实用性、覆盖率和语言质量,克服了现有方法在描述质量上的局限性,多个模型的性能均有显著提高。

BalCapRL:一种基于强化学习的多模态大语言模型图像描述的平衡框架

Apple Machine Learning Research
Apple Machine Learning Research · 2026-05-11T00:00:00Z

谷歌扩展了Gemini API的文件搜索工具,支持多模态数据和自定义元数据,提升了检索增强生成系统的能力。新功能包括图像与文本的联合处理和页面引用,帮助用户更准确地找到信息并验证来源,使应用程序在处理大量数据时更高效、可靠。

Gemini API 文件搜索现已支持多模态:构建高效、可验证的检索增强生成系统

The Keyword
The Keyword · 2026-05-05T18:00:00Z

graphify-dotnet 是一款专注于代码分析的多模态知识图谱构建工具。它通过多阶段流水线处理文件,提取概念与关系,构建知识图谱,帮助开发者更好地理解项目架构,并为 AI 编程助手提供结构化上下文,从而提升代码生成的质量与可靠性。

Graphify-DotNet:AI 驱动的 .NET 代码知识图谱构建工具

dotNET跨平台
dotNET跨平台 · 2026-05-03T00:10:47Z
小米正式开源 MiMo 系列模型,顺手送100万亿Token

小米开源了MiMo-V2.5系列大模型,包括MiMo-V2.5-Pro和MiMo-V2.5,支持复杂任务和多模态处理,采用MIT协议,允许自由商用和微调。同时启动“Orbit百万亿Token计划”,向全球开发者赠送100万亿Token,促进模型应用。首日已适配多种AI芯片,方便开发者使用。

小米正式开源 MiMo 系列模型,顺手送100万亿Token

dotNET跨平台
dotNET跨平台 · 2026-04-29T00:01:32Z
打工人五一自救指南:把活全甩给AI,准备免打扰出门

DuMate是百度智能云开发的AI助手,支持多模态理解与生成,能够高效处理复杂任务,如整理报告、生成简报和视频总结。用户可通过IM平台远程指挥,节省时间,适合假期应急办公。新用户输入邀请码可获得积分福利。

打工人五一自救指南:把活全甩给AI,准备免打扰出门

量子位
量子位 · 2026-04-27T12:19:37Z
【效果逆天】零样本工业缺陷改变工业质检,颠覆YOLO系列模型效果

最近的零样本测试表明,利用多模态和Transformer大模型可以高效检测工业缺陷,如裂纹和污垢。这项技术实现了零样本检测,显著提高了项目交付速度,适用于多种样品和行业转换。

【效果逆天】零样本工业缺陷改变工业质检,颠覆YOLO系列模型效果

gloomyfish
gloomyfish · 2026-04-27T03:16:11Z
一分钟读论文:《用扩散语言模型统一多模态理解与生成》

蚂蚁集团的论文《LLaDA2.0-Uni》提出了一种离散扩散语言模型,旨在统一视觉理解和图像生成。该模型通过将图像压缩为离散语义token,并利用混合专家架构实现文本和视觉token的并行处理,显著提升推理速度。LLaDA2.0-Uni在视觉理解和图像生成任务上表现优异,展现出理解与生成的连续交互能力。

一分钟读论文:《用扩散语言模型统一多模态理解与生成》

Micropaper
Micropaper · 2026-04-26T00:00:00Z
Claude Opus 4.7 发布:更费token了,用户评价两极

Anthropic发布了新模型Claude Opus 4.7,增强了编程和多模态能力,但用户反馈两极。新模型在处理复杂任务时更严谨,支持高分辨率图像输入。然而,token消耗显著增加,部分功能下降,尤其在文案撰写和长上下文检索方面。用户在法律和金融领域需谨慎使用。

Claude Opus 4.7 发布:更费token了,用户评价两极

TechWeb 全站精华
TechWeb 全站精华 · 2026-04-17T04:02:03Z
移远通信携多模态智能机器人平台Q-Robotbox参加GEIA Asia 2026

移远通信在上海参加GEIA Asia 2026,展示了其多模态智能机器人平台Q-Robotbox。该平台集成了视觉、听觉和动觉,支持自主移动机器人和智能割草机器人,具备高集成度和低部署门槛。Q-Robotbox依托高性能芯片,实现自然交互,已在多个场景完成算法验证,并正在扩展应用范围。

移远通信携多模态智能机器人平台Q-Robotbox参加GEIA Asia 2026

全球TMT-美通国际
全球TMT-美通国际 · 2026-04-16T07:21:16Z

NotebookLM在2025至2026年间转变为一个多模态创作工作室,支持创意项目的整个生命周期。其五大关键功能包括深度研究引擎、思维导图、视觉工作室、音频和视频概述,以及高容量多模态笔记本。这些功能提升了创意架构师的研究效率、概念可视化、演示文稿生成和复杂决策的结构清晰度。

创意架构师的NotebookLM

KDnuggets
KDnuggets · 2026-04-15T16:00:27Z
Meta亿元天团首个大模型交卷!余家辉宋飏Jason Wei耗时九个月,一雪Llama前耻

Meta推出的新模型Muse Spark经过9个月研发,专注于多模态理解和推理,表现优异,推动股价上涨,标志着Meta重回AI前列。尽管在编程和Agent任务上仍有不足,但整体性能显著提升。

Meta亿元天团首个大模型交卷!余家辉宋飏Jason Wei耗时九个月,一雪Llama前耻

量子位
量子位 · 2026-04-09T01:49:48Z
Meta重新进入人工智能竞赛,推出新模型Muse Spark

Meta推出新AI模型Muse Spark,旨在提升产品智能化,支持多模态输入,处理复杂科学和健康问题。该模型将逐步在WhatsApp、Instagram等平台上线,未来计划开源。

Meta重新进入人工智能竞赛,推出新模型Muse Spark

The Verge
The Verge · 2026-04-08T16:12:54Z
卡帕西没做完的,开源社区48小时搞定了!完全体知识库,token省70倍

开源社区在48小时内推出Graphify工具,自动生成知识图谱,节省71.5倍token消耗。该工具支持多模态处理,用户只需一条命令即可生成交互式知识图谱,降低使用门槛。

卡帕西没做完的,开源社区48小时搞定了!完全体知识库,token省70倍

量子位
量子位 · 2026-04-07T05:50:13Z
OpenClaw v2026.4.5更新:原生视频生成,看起来非常稳定!

OpenClaw v2026.4.5更新引入视频和音乐生成功能,增强多模态能力,支持多语言界面,优化工作流和审批系统,提升记忆处理和性能稳定性,简化配置管理,推动AI应用可控化发展。

OpenClaw v2026.4.5更新:原生视频生成,看起来非常稳定!

极道
极道 · 2026-04-06T06:37:00Z
GPT-6,曝光了

OpenAI计划于4月14日发布GPT-6,该模型性能提升40%,支持多模态处理,具备200万Token的上下文窗口。OpenAI将重心放在GPT-6上,目标是实现AGI。同时,GPT-Image 2也备受关注,展现出更强的生成能力。算力成为AI竞争的关键因素。

GPT-6,曝光了

量子位
量子位 · 2026-04-05T04:49:33Z
美团盯上原生多模态!路子还很野:把图像语音都当成Token来预测

美团LongCat提出的DiNA原生多模态架构将图像、语音和文本统一为离散Token,突破了传统模型的局限。该模型通过共享参数和机制,实现了更高效的理解与生成,推动了多模态AI的发展。

美团盯上原生多模态!路子还很野:把图像语音都当成Token来预测

量子位
量子位 · 2026-04-03T06:24:01Z

Google于4月2日发布了开源模型Gemma 4,强调参数效率和本地运行能力,支持多种设备和语言,具备多模态处理能力,适用于Agent工作流开发。该模型采用Apache 2.0许可证,兼容主流工具链,推动AI在移动端和边缘计算的应用。

派早报:Google 发布 Gemma 4 开源系列模型、智谱发布 GLM-5V-Turbo 多模态模型等

少数派
少数派 · 2026-04-03T00:39:38Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码