小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模

三维空间感知是自动驾驶和机器人领域的核心能力,旨在从二维图像恢复真实世界的空间结构。Meta与普林斯顿大学提出的VLM³框架,基于标准视觉语言模型,统一了物体级三维理解和公制深度估计等任务,显著提升了模型在细粒度三维感知中的表现。研究表明,通用视觉语言模型在三维表征能力上超出预期,为三维视觉领域的统一基础模型提供了新依据。

深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模

HyperAI超神经
HyperAI超神经 · 2026-06-08T08:06:39Z
GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2,且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

GR00T N1.6和N1.7是NVIDIA开发的视觉语言模型(VLM),用于机器人控制。N1.6改进了模型结构,支持灵活分辨率,并引入新数据集;N1.7在此基础上增强了模型的泛化能力,并在大量人类视频数据上进行预训练,提高了机器人控制的精确性和效率。

GR00T N1.7的简介与微调——其中的VLM是“基于Qwen3-VL”的Cosmos-Reason2,且预训练数据中包含2 万小时的 EgoScale人类视频数据(含GR00T N1.6的简介)

结构之法 算法之道
结构之法 算法之道 · 2026-05-27T08:00:00Z
一文通透Qwen3-VL——在交错式MRoPE、DeepStack、文本时间戳对齐机制的基础上,先预训练,再后训练(即分别SFT、蒸馏、RL)

Qwen系列模型最新升级为Qwen3-VL,在视觉理解和视频处理方面有显著提升。引入多维旋转位置编码(MRoPE)和DeepStack技术,增强了对复杂场景的推理能力,支持长文档和长视频处理,具备更高的上下文长度和精确的时间定位能力,推动多模态理解的进步。

一文通透Qwen3-VL——在交错式MRoPE、DeepStack、文本时间戳对齐机制的基础上,先预训练,再后训练(即分别SFT、蒸馏、RL)

结构之法 算法之道
结构之法 算法之道 · 2026-05-08T07:57:45Z
用本地Qwen3大模型驱动中文输入法,我做了一个实验性的项目

该项目llm-ime旨在利用大语言模型(LLM)改善拼音输入法的候选词排序。与传统基于词频的输入法不同,LLM能够通过分析上下文提供更符合语境的候选词。项目目前使用本地量化模型以确保隐私,现处于Web验证阶段,未来计划接入真实输入法框架并优化候选词评分策略。

用本地Qwen3大模型驱动中文输入法,我做了一个实验性的项目

dotNET跨平台
dotNET跨平台 · 2026-04-30T23:57:50Z

本文介绍了如何在本地构建一个免费的人工智能编码助手,结合OpenCode、Ollama和Qwen3-Coder三种工具。该系统提供隐私和安全性,无需互联网连接,使用无限制。用户可以通过简单步骤下载和配置这些工具,以提高编码、调试和代码生成的效率,保护知识产权。

探索OpenCode + Ollama + Qwen3-Coder的可能性

KDnuggets
KDnuggets · 2026-04-21T16:00:03Z
开源Qwen3-14B蒸馏多种表观遗传时钟:统一生物语言与推理

生物AI通过整合多种衰老时钟知识,构建统一大模型,实现跨数据类型的推理,推动生物研究一体化。该模型不仅能预测年龄,还能生成蛋白质组合,展现出强大的跨模态能力,标志着AI从工具向科研伙伴的转变。

开源Qwen3-14B蒸馏多种表观遗传时钟:统一生物语言与推理

极道
极道 · 2026-04-10T23:09:00Z
在线教程丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控

生成式AI的语音合成技术不断进步,Qwen3-TTS模型支持多语言、语音克隆和细粒度控制,已在HyperAI官网上线,用户可体验3秒语音克隆。

在线教程丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调控

HyperAI超神经
HyperAI超神经 · 2026-03-03T05:52:33Z
LWiAI 播客第233期 - Moltbot、Genie 3、Qwen3-Max-Thinking

在第233期播客中,讨论了谷歌在Chrome中推出的Gemini AI代理、OpenAI发布的ChatGPT翻译器和Prism,以及初创公司Recursive和New Rofo的融资情况。同时,AI行业领导者对明尼苏达州的暴力事件表示关切。

LWiAI 播客第233期 - Moltbot、Genie 3、Qwen3-Max-Thinking

Last Week in AI
Last Week in AI · 2026-02-06T05:06:04Z

阿里开源的Qwen3-Coder-Next智能体编程模型,激活3B参数,性能接近顶级模型,推理成本仅为5%至10%。该模型适合低成本智能体部署,具备出色的编程能力,能够有效处理复杂任务,已在多个平台开源,供全球开发者使用。

阿里开源智能体编程模型Qwen3-Coder-Next ,推理成本大降

量子位
量子位 · 2026-02-04T03:03:08Z

阿里开源的Qwen3-ASR语音识别模型支持52种语言,能快速准确识别饶舌歌曲,处理5小时音频仅需10秒,适合AI硬件部署,开发者可免费下载使用。

千问语音识别模型Qwen3-ASR开源!饶舌RAP歌曲也能轻松识别

量子位
量子位 · 2026-01-30T02:48:17Z
即刻体验国内最强推理模型Qwen3-Max-Thinking,千问PC和网页端已接入

抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更详细的文章内容。

即刻体验国内最强推理模型Qwen3-Max-Thinking,千问PC和网页端已接入

机器之心
机器之心 · 2026-01-27T05:34:43Z

阿里千问发布的Qwen3-Max-Thinking模型在19项基准测试中表现优异,具备自适应工具调用和扩展技术,推理能力显著提升,刷新全球SOTA,超越多款顶级闭源模型。Qwen系列模型下载量已突破10亿次,成为全球开源AI的新标杆。

那个用半成品刷爆SOTA的Qwen3超大杯推理版,现在正式上线

量子位
量子位 · 2026-01-26T15:40:01Z
Qwen3、GPT-5.2与Gemini 3 Pro:你应该在何时使用哪一个?

选择AI模型时,团队需根据需求选择合适的模型。Qwen3适合需要控制的团队,GPT-5.2注重可靠性,Gemini 3 Pro专注于知识和文档处理。每种模型各有优缺点,团队应根据工作负载和运营约束做出明智选择。

Qwen3、GPT-5.2与Gemini 3 Pro:你应该在何时使用哪一个?

freeCodeCamp.org
freeCodeCamp.org · 2026-01-08T23:37:07Z
Thinking Machines首款产品重大更新:K2 Thinking、Qwen3-VL都可以微调了

文章讨论了AI在候选人筛选中的应用,强调其提升招聘效率和准确性的潜力,同时指出可能存在的偏见和隐私问题。

Thinking Machines首款产品重大更新:K2 Thinking、Qwen3-VL都可以微调了

机器之心
机器之心 · 2025-12-15T10:39:40Z
AI 论文周报丨DeepSeekMath-V2/医学视频图像分割/3D 重建/Qwen3-VL……一文速览 AI 前沿

DeepSeek开发的DeepSeekMath-V2在数学推理方面取得显著进展,尤其在定理证明中表现优异,获得国际数学奥林匹克金牌和普特南接近满分。该模型通过自我修正和验证循环提升推理能力。

AI 论文周报丨DeepSeekMath-V2/医学视频图像分割/3D 重建/Qwen3-VL……一文速览 AI 前沿

HyperAI超神经
HyperAI超神经 · 2025-12-06T03:01:13Z
Qwen3-VL技术报告英中对照版.pdf

Qwen3-VL是阿里推出的多模态基础模型,支持文本、图像和视频等多种数据类型,具备256K上下文处理能力。其核心技术包括频率交错、视觉特征注入和文本时间戳,训练体系完善,表现优异,适用于企业智能应用。

Qwen3-VL技术报告英中对照版.pdf

我爱自然语言处理
我爱自然语言处理 · 2025-11-29T10:34:27Z
使用Graviton机型推理LLM模型实践指南

AWS Graviton处理器与Qwen3 0.6B模型结合,为高频简单任务提供高性价比的推理方案。Graviton实例在推理速度、成本和延迟上优于Intel实例,适合工单分类和情感分析等应用,支持快速响应和成本控制。

使用Graviton机型推理LLM模型实践指南

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-11-28T01:49:26Z
阿里推出千问APP,大厂抢占AI入口战役升级

阿里巴巴推出“千问”APP,进军C端AI应用市场,旨在与ChatGPT等竞争。该APP基于Qwen3模型,提供多种功能并计划整合生活场景,但吸引用户仍面临挑战。

阿里推出千问APP,大厂抢占AI入口战役升级

TechWeb 全站精华
TechWeb 全站精华 · 2025-11-17T08:56:37Z
刚刚,阿里千问 APP 开启公测,要做中国版ChatGPT | 附实测

阿里推出千问APP,基于开源模型Qwen3,旨在成为个人AI助手。与ChatGPT相比,千问在逻辑题和知识引用方面表现更佳,但在编程题上两者相当。千问需在用户体验上突出差异化,以吸引用户下载。尽管面临挑战,若能提供更友好的价格和多语言支持,或能找到市场机会。

刚刚,阿里千问 APP 开启公测,要做中国版ChatGPT | 附实测

爱范儿
爱范儿 · 2025-11-17T02:58:02Z

Qwen3“超大杯”推理版在AIME 25测试中获得满分,超越GPT-5系列。尽管仍在训练中,Qwen3-Max-Thinking已可免费试用,技术细节尚未公布。该模型在物理和数学题上表现良好,但仍需优化,用户期待开源。

Qwen拿半成品刷下AIME’25满分,给别人留点面子吧……

量子位
量子位 · 2025-11-04T03:47:20Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码