小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
超越真实数据:从正则化的视角看合成数据

合成数据在真实数据稀缺时可提升模型的泛化能力,但过度依赖可能导致性能下降。本文提出一个学习理论框架,量化合成数据与真实数据之间的权衡,利用算法稳定性推导泛化误差界限,以确定最优的合成与真实数据比例。通过对混合数据的核岭回归分析,发现合成数据比例与测试误差呈U型关系,并在CIFAR-10和临床脑MRI数据集上进行了验证。理论扩展至领域适应,表明合理混合合成目标数据与有限源数据可减轻领域偏移,增强泛化能力。

超越真实数据:从正则化的视角看合成数据

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-30T00:00:00Z
代理可观察性推动代理评估

代理的可观察性与传统软件不同,因其行为复杂且不确定。评估代理时应关注推理过程而非代码路径,利用运行、追踪和线程等方法捕捉其行为。生产环境是主要的学习来源,真实数据有助于发现问题并指导测试。

代理可观察性推动代理评估

LangChain Blog
LangChain Blog · 2026-02-22T03:51:44Z

GAPO方法通过精准过滤噪声和稳健估计优势值,解决了企业在复杂环境中AI编程的rollout噪声问题,显著提升了模型的准确性和效率,使真实数据成为模型优化的关键。

鲁棒RL赋能AI编程!破局企业数据噪声难题,同等算力训出更好模型

量子位
量子位 · 2026-02-16T11:30:47Z
模型上下文协议(MCP)解读:常见问题解答

模型上下文协议(MCP)是一项新规范,旨在标准化大型语言模型(LLMs)访问数据和系统的方式。它允许开发者安全地将数据源和工具提供给模型,简化AI与应用的集成。通过MCP,开发者只需创建一次服务器,即可在多个平台上使用,从而提升AI的功能和交互能力。MCP确保模型在执行任务时使用真实数据,避免虚假回答,适用于电商、金融等多个领域。

模型上下文协议(MCP)解读:常见问题解答

Vercel News
Vercel News · 2025-07-25T13:00:00Z

马蜂窝推出AI旅行助手“AI小蚂”,结合DeepSeek大模型与垂直精调模型,旨在消除旅行中的AI“幻觉”。该助手支持实时问答、行程规划和个性化推荐,用户可通过提问明确需求,生成个性化旅行方案。AI小蚂利用真实数据,缩短规划时间,确保信息准确,提升用户体验。

马蜂窝AI旅行助手官宣上线,DeepSeek大模型+垂直精调模型致力打破“幻觉”

量子位
量子位 · 2025-04-28T07:51:29Z

本研究提出了一种结合仿真与真实数据共同训练的策略,以解决机器人模型训练中真实数据不足的问题。实验结果表明,该方法在不同任务上显著提升了机器人在真实环境中的操作性能,平均提升达38%。

Sim-and-Real Co-Training: A Simple Method for Vision-Based Robotic Manipulation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-31T00:00:00Z
使用AI创作内容?——智胜算法

在使用AI写作时,应避免被识别为机器生成内容。要结合人类的写作风格,变换句子结构,关注用户意图而非关键词堆砌,适当引入不完美,引用真实数据,避免过度依赖模板,并测试内容的AI特征,以提升内容的吸引力。

使用AI创作内容?——智胜算法

DEV Community
DEV Community · 2025-03-21T12:24:02Z
可证明的不确定性分解通过高阶校准

我们提出了一种方法,将模型预测的不确定性分解为随机性和认知性,并与真实数据分布关联。该方法基于高阶校准的新概念,能够测量和实现高阶校准,确保随机不确定性的估计与真实数据一致。这是首个不依赖真实数据分布假设的正式保证,适用于现有高阶预测模型,并提供自然评估指标。实验结果表明,该方法在图像分类中表现有效。

可证明的不确定性分解通过高阶校准

Apple Machine Learning Research
Apple Machine Learning Research · 2025-01-29T00:00:00Z
通过在开发中使用暂存服务提升开发体验

随着初创企业的发展,代码库变得复杂,服务和依赖项增多。将服务转移到暂存环境,开发者可以专注于特定端点,提升开发效率,减少资源消耗,并使用真实数据进行测试,确保一致性。

通过在开发中使用暂存服务提升开发体验

DEV Community
DEV Community · 2025-01-22T11:20:39Z
清北团队进军具身智能,银河通用、灵初智能、星海图齐发力

具身智能创业迅速发展,清华和北大团队发布多项研究。银河通用专注于低成本仿真,灵初智能结合强化学习与真实数据,星海图强调真实数据的重要性。三者在算法和数据选择上各有侧重,期待未来更多创新成果。

清北团队进军具身智能,银河通用、灵初智能、星海图齐发力

机器之心
机器之心 · 2025-01-21T03:00:07Z

本研究提出了一种新颖的时空图神经网络架构,解决了传统模型忽视空间扩散影响的问题。通过真实数据验证,该模型在捕捉时空依赖性方面表现出色。

基于空间扩散引导的编码-解码架构的PM2.5时空预测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-18T00:00:00Z

本研究提出一种新框架,通过级联扩散模型合成2D和3D细胞显微图像,解决传统细胞分割方法的劳动强度和错误率问题。实验结果显示,结合合成与真实数据训练的模型,细胞分割性能提高了9%。

级联扩散模型用于2D和3D显微图像合成以增强细胞分割

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-18T00:00:00Z

本研究提出了一种名为Mono2Stereo的立体匹配增强方法,旨在缩小合成数据集与真实数据集之间的差距。通过两阶段训练,该方法显著提升了匹配性能,尤其在零-shot泛化和领域微调方面表现突出。

Mono2Stereo:基于单目知识转移的增强立体匹配

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-14T00:00:00Z

本研究提出了一种自监督的领域不变预训练前端(DIP),旨在解决语音分离模型在真实环境中因缺乏目标参考数据而导致的领域差距,从而显著提升模型在真实数据上的表现。

利用预训练前端的语音分离以最小化领域不匹配

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

本研究提出了一种系统的量化框架,解决了机器学习算法在因果推断中可推广性评估不足的问题,通过真实数据模拟评估模型性能,为实际应用提供指导。

Causality Inference Generalizability Testing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

本研究提出了一种加权损失方法,以解决合成数据与真实数据之间的不匹配问题,从而提升模型性能。实验结果表明,该方法在文本分类任务中优于标准交叉熵,为合成数据的有效利用提供了新方案。

并非所有LLM生成的数据都是平等的:重新思考文本分类中的数据加权

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本文提出了一种声音-视觉导航的模拟到真实处理方法,包含声学场预测和路标导航。通过在SoundSpaces模拟器上验证设计并收集真实世界数据,测量模拟与现实的频谱差异,提出频率自适应策略以提升真实数据性能。最终,构建真实机器人平台,成功导航至声音对象,展示了智能代理从模拟到现实的潜力。

ANAVI:利用室内环境视觉实现音频噪声感知用于导航

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-24T00:00:00Z

浏览器里能跑的SOTA小模型在2亿、5亿和20亿级别获胜。团队发现合成数据只在特定领域有用,真实数据潜力未完全发挥。团队开源了一个对标的大型合成数据集。使用经过严格过滤的网络数据后,性能直线上升。合成数据还是比不过真实数据。小模型也要在数万亿token上训练。最终发布的系列模型适合各种设备。对齐和微调技术对小模型效果不理想。

小模型站起来了,浏览器里跑出SOTA,抱抱脸:快逃,合成数据不是未来

量子位
量子位 · 2024-08-19T05:48:47Z

本研究提出了一种新的两阶段框架,通过使用合成图像进行模型微调,然后使用真实数据进行快速适应,提高迁移能力。实验证明该方法在分类任务上的准确率提高高达30%。

图像到图像转换与风格迁移的分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-12T00:00:00Z

本研究探讨了缺失值填充方法对预测性能的影响。结果显示,对于使用强大模型进行预测的真实数据,改进填充方法对预测性能影响较小,投资于更好的填充方法收益有限。

预测中的填补:注意递减回报

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-29T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码