小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
超越真实数据:从正则化的视角看合成数据

合成数据在真实数据稀缺时可提升模型的泛化能力,但过度依赖可能导致性能下降。本文提出一个学习理论框架,量化合成数据与真实数据之间的权衡,利用算法稳定性推导泛化误差界限,以确定最优的合成与真实数据比例。通过对混合数据的核岭回归分析,发现合成数据比例与测试误差呈U型关系,并在CIFAR-10和临床脑MRI数据集上进行了验证。理论扩展至领域适应,表明合理混合合成目标数据与有限源数据可减轻领域偏移,增强泛化能力。

超越真实数据:从正则化的视角看合成数据

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-30T00:00:00Z
代理可观察性推动代理评估

代理的可观察性与传统软件不同,因其行为复杂且不确定。评估代理时应关注推理过程而非代码路径,利用运行、追踪和线程等方法捕捉其行为。生产环境是主要的学习来源,真实数据有助于发现问题并指导测试。

代理可观察性推动代理评估

LangChain Blog
LangChain Blog · 2026-02-22T03:51:44Z

GAPO方法通过精准过滤噪声和稳健估计优势值,解决了企业在复杂环境中AI编程的rollout噪声问题,显著提升了模型的准确性和效率,使真实数据成为模型优化的关键。

鲁棒RL赋能AI编程!破局企业数据噪声难题,同等算力训出更好模型

量子位
量子位 · 2026-02-16T11:30:47Z
模型上下文协议(MCP)解读:常见问题解答

模型上下文协议(MCP)是一项新规范,旨在标准化大型语言模型(LLMs)访问数据和系统的方式。它允许开发者安全地将数据源和工具提供给模型,简化AI与应用的集成。通过MCP,开发者只需创建一次服务器,即可在多个平台上使用,从而提升AI的功能和交互能力。MCP确保模型在执行任务时使用真实数据,避免虚假回答,适用于电商、金融等多个领域。

模型上下文协议(MCP)解读:常见问题解答

Vercel News
Vercel News · 2025-07-25T13:00:00Z

马蜂窝推出AI旅行助手“AI小蚂”,结合DeepSeek大模型与垂直精调模型,旨在消除旅行中的AI“幻觉”。该助手支持实时问答、行程规划和个性化推荐,用户可通过提问明确需求,生成个性化旅行方案。AI小蚂利用真实数据,缩短规划时间,确保信息准确,提升用户体验。

马蜂窝AI旅行助手官宣上线,DeepSeek大模型+垂直精调模型致力打破“幻觉”

量子位
量子位 · 2025-04-28T07:51:29Z

本研究提出了一种结合仿真与真实数据共同训练的策略,以解决机器人模型训练中真实数据不足的问题。实验结果表明,该方法在不同任务上显著提升了机器人在真实环境中的操作性能,平均提升达38%。

Sim-and-Real Co-Training: A Simple Method for Vision-Based Robotic Manipulation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-31T00:00:00Z
使用AI创作内容?——智胜算法

在使用AI写作时,应避免被识别为机器生成内容。要结合人类的写作风格,变换句子结构,关注用户意图而非关键词堆砌,适当引入不完美,引用真实数据,避免过度依赖模板,并测试内容的AI特征,以提升内容的吸引力。

使用AI创作内容?——智胜算法

DEV Community
DEV Community · 2025-03-21T12:24:02Z
可证明的不确定性分解通过高阶校准

我们提出了一种方法,将模型预测的不确定性分解为随机性和认知性,并与真实数据分布关联。该方法基于高阶校准的新概念,能够测量和实现高阶校准,确保随机不确定性的估计与真实数据一致。这是首个不依赖真实数据分布假设的正式保证,适用于现有高阶预测模型,并提供自然评估指标。实验结果表明,该方法在图像分类中表现有效。

可证明的不确定性分解通过高阶校准

Apple Machine Learning Research
Apple Machine Learning Research · 2025-01-29T00:00:00Z
通过在开发中使用暂存服务提升开发体验

随着初创企业的发展,代码库变得复杂,服务和依赖项增多。将服务转移到暂存环境,开发者可以专注于特定端点,提升开发效率,减少资源消耗,并使用真实数据进行测试,确保一致性。

通过在开发中使用暂存服务提升开发体验

DEV Community
DEV Community · 2025-01-22T11:20:39Z
清北团队进军具身智能,银河通用、灵初智能、星海图齐发力

具身智能创业迅速发展,清华和北大团队发布多项研究。银河通用专注于低成本仿真,灵初智能结合强化学习与真实数据,星海图强调真实数据的重要性。三者在算法和数据选择上各有侧重,期待未来更多创新成果。

清北团队进军具身智能,银河通用、灵初智能、星海图齐发力

机器之心
机器之心 · 2025-01-21T03:00:07Z

本研究提出了一种名为Mono2Stereo的立体匹配增强方法,旨在缩小合成数据集与真实数据集之间的差距。通过两阶段训练,该方法显著提升了匹配性能,尤其在零-shot泛化和领域微调方面表现突出。

Mono2Stereo: An Enhanced Stereo Matching Method Based on Monocular Knowledge Transfer

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

本研究提出了一种系统的量化框架,解决了机器学习算法在因果推断中可推广性评估不足的问题,通过真实数据模拟评估模型性能,为实际应用提供指导。

Causality Inference Generalizability Testing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

本研究提出了一种加权损失方法,以解决合成数据与真实数据的不匹配问题。通过强调高质量和多样化的LLM生成数据,显著提升了文本分类模型的性能,优于传统方法,为合成数据的有效利用提供了新思路。

并非所有LLM生成的数据都是平等的:重新思考文本分类中的数据加权

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本文探讨了生成模型在混合真实与合成数据训练中的稳定性问题,提出了理论框架分析模型崩溃现象。研究表明,合成数据的增加可能导致模型性能下降,但在适当比例的真实数据支持下,可以有效缓解这一问题。实验验证强调了平衡真实与合成数据的重要性,以促进生成式人工智能的可持续发展。

崩溃还是繁荣?自我生成世界中合成数据的风险与机遇

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-22T00:00:00Z

本文研究了语言模型性能与交叉熵损失的关系,发现模型规模、数据集大小和计算量呈幂律关系。研究表明,混合使用真实数据与合成数据训练可以缓解模型崩溃现象,并提出自适应正则化策略以减轻影响。模型崩溃指在使用合成数据训练新模型时性能下降,因此需谨慎选择训练数据。

强模型崩溃

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本文探讨了生成模型在自我消耗循环中的训练挑战,提出了模型自噬障碍(MAD)概念,并分析了合成数据与真实数据的关系。研究表明,合成数据能提升性能,但真实数据仍不可或缺。扩散模型在图像生成中表现优异,未来需平衡真实与合成数据的使用,以优化生成效果并解决伦理问题。

自我改善的扩散模型和合成数据

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

浏览器里能跑的SOTA小模型在2亿、5亿和20亿级别获胜。团队发现合成数据只在特定领域有用,真实数据潜力未完全发挥。团队开源了一个对标的大型合成数据集。使用经过严格过滤的网络数据后,性能直线上升。合成数据还是比不过真实数据。小模型也要在数万亿token上训练。最终发布的系列模型适合各种设备。对齐和微调技术对小模型效果不理想。

小模型站起来了,浏览器里跑出SOTA,抱抱脸:快逃,合成数据不是未来

量子位
量子位 · 2024-08-19T05:48:47Z

本文探讨了模型崩溃现象,指出仅使用合成数据训练新模型时性能下降,而混合真实与合成数据可以避免崩溃。研究开发了框架,通过实验验证合成数据生成的有效性,强调其在数据科学中的潜力。

超越模型崩溃:通过合成数据实现规模扩展需要加强

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

百度AI技术生态部与ProtoPie合作推出《如何提高AI产品原型表现力》系列沙龙课,帮助AI产品方向从业者和学习者提升设计能力和利用真实数据的技巧。

报名AI产品原型设计公开课!与ProtoPie一起打造高保真AI原型

百度大脑
百度大脑 · 2024-01-29T12:40:09Z

本文介绍了SyntheticP3D数据集和CC3D方法,结合使用可以在只有10%真实数据的情况下取得与最先进模型相媲美的物体位姿估计结果,并在使用50%真实数据时超越SOTA模型10.4%。

合成数据用于多物体抓握中的快速注释和鲁棒分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-24T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码