小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
Fable 5自带反蒸馏机制!检测到就降智,误触率高到离谱

Anthropic发布的新模型Fable 5引发用户不满,因其安全检测机制频繁切换至旧模型Opus 4.8,影响使用体验。尽管Fable 5能力强大,但在高风险场景下自动降低回答质量,用户对此感到困惑。模型厂商应告知用户能力变化,以免影响学术研究和技术交流。

Fable 5自带反蒸馏机制!检测到就降智,误触率高到离谱

量子位
量子位 · 2026-06-11T04:16:20Z
高德发布ABot-Earth0.5:跨越2D蒸馏模式,以3D原生驱动高一致性场景生成

阿里巴巴旗下的高德发布了全球首个基于3D数据训练的城市模型ABot-Earth0.5。该模型通过直接使用3D数据,实现了城市场景生成效率提升约1000倍,并在数据处理和推理机制上进行了创新,确保生成内容与真实环境一致。用户可以通过卫星图或文字快速生成3D城市,并导入主流引擎使用。

高德发布ABot-Earth0.5:跨越2D蒸馏模式,以3D原生驱动高一致性场景生成

量子位
量子位 · 2026-06-08T09:00:20Z
认知难题:Opus 4.8为何自称是千问?与蒸馏无关 中转站演双簧

Opus 4.8自称千问,实际上是中转站API的假冒身份。中转站通过伪造回答来节省成本,导致用户无法确认模型的真实身份。这一事件揭示了AI模型调用中的混乱与不透明,用户难以辨别真假,甚至可能与多个代理对话。

认知难题:Opus 4.8为何自称是千问?与蒸馏无关 中转站演双簧

极道
极道 · 2026-05-29T12:53:00Z
蒸馏 Google 工程基因:把高级工程师的判断力编码给 AI Agent

Addy Osmani 提出了将高级工程师判断力编码为 AI Agent 的方法,称为 agent-skills。该方法通过结构化工作流和明确的检查点,确保 AI 在编程时遵循关键步骤,如编写规范和测试,从而提高执行质量,避免忽视正确性。

蒸馏 Google 工程基因:把高级工程师的判断力编码给 AI Agent

乱世浮生
乱世浮生 · 2026-05-09T08:05:15Z
一文通透Qwen3-VL——在交错式MRoPE、DeepStack、文本时间戳对齐机制的基础上,先预训练,再后训练(即分别SFT、蒸馏、RL)

Qwen系列模型最新升级为Qwen3-VL,在视觉理解和视频处理方面有显著提升。引入多维旋转位置编码(MRoPE)和DeepStack技术,增强了对复杂场景的推理能力,支持长文档和长视频处理,具备更高的上下文长度和精确的时间定位能力,推动多模态理解的进步。

一文通透Qwen3-VL——在交错式MRoPE、DeepStack、文本时间戳对齐机制的基础上,先预训练,再后训练(即分别SFT、蒸馏、RL)

结构之法 算法之道
结构之法 算法之道 · 2026-05-08T07:57:45Z

马斯克在法庭上承认其公司xAI蒸馏了OpenAI的模型,引发对AI行业竞争规则的讨论。法官质疑马斯克的动机,指出他一边担忧AI风险,一边创办AI公司。案件结果可能影响AI行业的未来,蒸馏技术的合法性和慈善信托的转型问题将被重新审视。

马斯克当庭承认蒸馏ChatGPT,AI行业最大的遮羞布被扯掉了

dotNET跨平台
dotNET跨平台 · 2026-05-06T00:01:13Z
一分钟读论文:《把百亿模型装进手机:TIDE实现扩散语言模型跨架构蒸馏》

北京大学和浙江大学的研究者提出了TIDE框架,实现了扩散语言模型的跨架构蒸馏,将16B MoE教师模型压缩至0.6B学生模型,提升了代码生成任务的性能和推理速度,并显著降低了内存需求。TIDE通过双轴调度、上下文增强和跨分词器匹配等技术,解决了蒸馏过程中的关键挑战,使得dLLM在消费级硬件上部署成为可能。

一分钟读论文:《把百亿模型装进手机:TIDE实现扩散语言模型跨架构蒸馏》

Micropaper
Micropaper · 2026-05-03T00:00:00Z

大模型训练应视为流水线,分为数据工程、预训练、中训、微调和对齐等阶段。每个环节有不同的算力需求和挑战,数据质量至关重要。预训练需处理大量干净数据以确保模型稳定性,中训通过调整数据配比提升能力,微调教会模型理解指令,对齐阶段则使用多种算法优化模型表现。整体训练过程复杂,需关注数据、算力和工程细节。

【大模型基础设施工程】05:训练全景:Pre-train、SFT、RLHF、DPO、蒸馏

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
在线教程丨Qwen3.5 27B蒸馏Claude 4.6 Opus推理能力,兼顾高质量输出与低门槛部署

近年来,大模型在推理能力和效率上不断进步。Jackrong于2026年3月开源了高性能推理模型Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled,该模型结合了先进的推理能力,显著提升了复杂问题的解决能力,支持流式对话生成,适用于科研、编程和教育等领域,提供个性化的智能对话支持。

在线教程丨Qwen3.5 27B蒸馏Claude 4.6 Opus推理能力,兼顾高质量输出与低门槛部署

HyperAI超神经
HyperAI超神经 · 2026-04-03T07:16:39Z
AI 数学推理新纪元:SAIR Foundation 正式启动“数学蒸馏挑战赛”

SAIR Foundation于2026年3月14日启动“数学蒸馏挑战赛”,旨在突破AI逻辑瓶颈,提升机器推理能力。比赛提供2200万道代数题,参赛者需编写压缩的“策略指南”以提高弱模型的准确率,分为两个阶段,欢迎全球学者和爱好者参与。

AI 数学推理新纪元:SAIR Foundation 正式启动“数学蒸馏挑战赛”

量子位
量子位 · 2026-03-14T12:45:52Z
搭建大模型 API 中转并用于国内数据蒸馏:基于 sub2api 的部署

本文介绍了基于sub2api的部署方案,适合个人开发者和小团队,旨在统一接入大模型服务并提供API接口。内容包括环境配置、部署路径、验证方法及运维注意事项,强调使用Docker进行快速部署,以确保数据清洗和调用管理的高效性。

搭建大模型 API 中转并用于国内数据蒸馏:基于 sub2api 的部署

QingHao's Blog
QingHao's Blog · 2026-03-08T16:38:24Z
1600万次偷跑曝光!Deepseek与Minimax如何偷偷蒸馏Anthropic?

Anthropic指控三家中国大模型公司(Deepseek、Kimi、Minimax)通过蒸馏其模型并提供日志和交互数据作为证据。蒸馏是否构成抄袭存在争议,Anthropic认为这些公司通过混淆账号和IP地址进行不当行为。尽管Deepseek V4尚未发布,相关指控已引发关注,未来可能面临法律后果。

1600万次偷跑曝光!Deepseek与Minimax如何偷偷蒸馏Anthropic?

硕鼠的博客站
硕鼠的博客站 · 2026-02-26T00:51:04Z
让 Anthropic 破防的「蒸馏」风波,美国 AI 大牛泼冷水:中国 AI 成功不靠走捷径

Anthropic 指控三家中国 AI 实验室通过虚假账号蒸馏其 Claude 模型。专家 Lambert 认为此事并不严重,强调蒸馏与强化学习的区别,指出蒸馏并非捷径,真正的创新依赖于强化学习。

让 Anthropic 破防的「蒸馏」风波,美国 AI 大牛泼冷水:中国 AI 成功不靠走捷径

爱范儿
爱范儿 · 2026-02-25T12:27:03Z
Claude API删除提示词后自称是深度求索的DS 也是蒸馏开源模型而来?

Anthropic 指责其他公司蒸馏 Claude 模型,但自己也使用开源模型进行训练,引发网友质疑其双标行为。尽管开源训练没有问题,但其闭源做法引发争议。

Claude API删除提示词后自称是深度求索的DS 也是蒸馏开源模型而来?

蓝点网
蓝点网 · 2026-02-25T03:29:55Z
Anthropic指控DeepSeek及其他中国公司利用Claude训练其人工智能

Anthropic指控DeepSeek等三家中国AI公司滥用其Claude AI模型,创建24,000个虚假账户并进行1600万次交流。尽管“蒸馏”是合法的训练方法,Anthropic警告其可能被用于非法目的,助长专制政权的网络攻击和监控。

Anthropic指控DeepSeek及其他中国公司利用Claude训练其人工智能

The Verge
The Verge · 2026-02-23T20:22:55Z
大模型蒸馏:小型快速AI的实用指南

大模型在基准测试中表现优异,但推理成本高。模型蒸馏通过知识转移压缩模型,既保持准确性又降低成本,适合边缘设备。本文介绍了蒸馏的原理、应用场景及与其他优化技术的结合,以提高LLM应用的效率和性能。

大模型蒸馏:小型快速AI的实用指南

Redis Blog
Redis Blog · 2026-02-11T00:00:00Z
FLUX.2‑klein‑4B:步数蒸馏实现 4 步亚秒级图像生成,在消费级 GPU 上体验实时交互;Vehicles OpenImages 数据集:专注车辆检测与定位

黑森林实验室发布的FLUX.2-klein-4B模型,通过步数蒸馏实现亚秒级推理,显存需求仅13GB,支持多种生成模式,提升了AI图像生成的实时交互能力。

FLUX.2‑klein‑4B:步数蒸馏实现 4 步亚秒级图像生成,在消费级 GPU 上体验实时交互;Vehicles OpenImages 数据集:专注车辆检测与定位

HyperAI超神经
HyperAI超神经 · 2026-02-02T08:33:47Z
生成1.8万年气候数据,英伟达等提出长距离蒸馏,仅需单步计算实现长期天气预报

AI天气预报模型通过生成合成气候数据,解决了长期预报中的数据稀缺问题。研究者提出的长距离蒸馏方法,利用自回归模型生成大量数据,训练出仅需单步计算的概率模型,显著提高了预报准确性,已达到与欧洲中期天气预报中心相当的水平。

生成1.8万年气候数据,英伟达等提出长距离蒸馏,仅需单步计算实现长期天气预报

HyperAI超神经
HyperAI超神经 · 2026-01-05T12:31:02Z
小猫都能懂的大模型原理 6 - 模型优化

本文介绍了大语言模型的优化方法,包括蒸馏、量化、超长上下文和混合专家。蒸馏通过大模型指导小模型以减小体积并保留能力;量化通过降低精度节省内存;超长上下文利用局部窗口和环形注意力优化计算;混合专家则选择性激活部分专家以减少计算量。这些方法有效提升了模型的效率和性能。

小猫都能懂的大模型原理 6 - 模型优化

UsubeniFantasy
UsubeniFantasy · 2025-12-25T08:00:51Z
流匹配模型的得分蒸馏

本文探讨了流匹配模型的得分蒸馏方法,以提高图像生成效率。通过推导,统一了高斯扩散与流匹配,并将得分身份蒸馏(SiD)扩展至预训练的文本到图像流匹配模型。实验结果表明,SiD在不同模型中有效,无需教师微调或架构更改,首次系统性证明了得分蒸馏在文本到图像流匹配模型中的广泛适用性。

流匹配模型的得分蒸馏

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码