小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
超越真实数据:从正则化的视角看合成数据

合成数据在真实数据稀缺时可提升模型的泛化能力,但过度依赖可能导致性能下降。本文提出一个学习理论框架,量化合成数据与真实数据之间的权衡,利用算法稳定性推导泛化误差界限,以确定最优的合成与真实数据比例。通过对混合数据的核岭回归分析,发现合成数据比例与测试误差呈U型关系,并在CIFAR-10和临床脑MRI数据集上进行了验证。理论扩展至领域适应,表明合理混合合成目标数据与有限源数据可减轻领域偏移,增强泛化能力。

超越真实数据:从正则化的视角看合成数据

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-30T00:00:00Z
AI Agent 生成合成数据:从简单提示到物理准确的训练集

研究表明,AI Agent驱动的合成数据生成技术能够高效构建高质量训练数据集,降低成本并提升训练速度,解决极端场景问题,标志着合成数据进入2.0时代。

AI Agent 生成合成数据:从简单提示到物理准确的训练集

Micropaper
Micropaper · 2026-03-21T00:00:00Z

合成数据是人工生成的,避免了隐私问题和高数据收集成本。本文介绍如何通过Python脚本生成合成数据,包括生成随机数据、引入关系和规则、模拟过程生成数据、创建时间序列和事件日志,以及生成文本数据。合成数据在测试和分析中非常有用,但需注意确保数据的真实性和隐私保护。

5个用于合成数据生成的实用Python脚本

KDnuggets
KDnuggets · 2026-03-19T13:52:13Z
绝对初学者的5个有趣API

本文介绍了五个易用的API:OpenRouter简化多语言模型访问;Olostep提供实时网页数据并结构化;Tinker API便于微调和训练大型语言模型;SerpApi获取实时搜索结果;MOSTLY AI Generator API生成安全合成数据。这些API帮助开发者轻松构建项目。

绝对初学者的5个有趣API

KDnuggets
KDnuggets · 2026-01-30T13:00:19Z
马斯克真没吹牛!世界模型 Genie 3 一键打造 GTA6 不是梦

Google DeepMind推出的Project Genie是一个实时渲染的交互环境,旨在推动通用人工智能(AGI)发展。该项目结合了图像控制、语言理解和物理反馈,模拟人类梦境,允许用户在短时间内自由探索虚拟场景。尽管目前存在时间限制和技术不足,但其潜力在于生成合成数据,帮助机器人学习现实技能。

马斯克真没吹牛!世界模型 Genie 3 一键打造 GTA6 不是梦

爱范儿
爱范儿 · 2026-01-30T09:05:41Z
数据质量的幻觉:重新思考基于分类器的质量过滤在大规模语言模型预训练中的应用

在混合质量数据集上进行大规模模型预训练时,数据过滤至关重要。分类器质量过滤(CQF)通过训练二分类器来区分预训练数据和高质量数据,保留高分文档。研究表明,CQF能提升下游任务表现,但可能会隐含过滤高质量数据,未必改善语言建模。与合成数据相比,CQF的效果存在显著差异,挑战了其对数据质量有效性的看法。

数据质量的幻觉:重新思考基于分类器的质量过滤在大规模语言模型预训练中的应用

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-16T00:00:00Z
2026 年值得关注的 5 大企业通信趋势

到2025年,企业员工适应AI变革,数据质量成为关键。合成数据逐渐取代真实数据,提升AI训练效果。企业重视上下文数据以优化客户体验,AI代理增强人类能力,CCaaS与CRM融合加速,UCC供应商聚焦中端市场。

2026 年值得关注的 5 大企业通信趋势

实时互动网
实时互动网 · 2026-01-08T07:00:22Z
AWS Clean Rooms 推出用于机器学习模型训练的隐私增强型合成数据集生成功能

AWS Clean Rooms推出合成数据集生成功能,帮助组织生成保留原始数据统计特征的合成数据,解决数据可用性与隐私保护的矛盾,降低重识别风险,并支持自定义隐私参数,确保合成数据符合隐私合规要求。

AWS Clean Rooms 推出用于机器学习模型训练的隐私增强型合成数据集生成功能

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-12-03T02:07:47Z
Gemini 3 Pro对决GPT-5.1:理科状元与全能大师终极一战,谁在定义AI的下半场?|Gemini 3 Pro、Reasoning、Agentic Capabilities、Multimodal、Google

谷歌Gemini 3 Pro于2025年11月发布,具备强大的推理能力和原生多模态特性,采用高质量合成数据进行快速训练,并支持工具调用。在推理和多模态分析方面,Gemini 3表现优异,标志着AI领域的重要进展。

Gemini 3 Pro对决GPT-5.1:理科状元与全能大师终极一战,谁在定义AI的下半场?|Gemini 3 Pro、Reasoning、Agentic Capabilities、Multimodal、Google

硕鼠的博客站
硕鼠的博客站 · 2025-11-20T00:43:05Z
解锁汽车行业的未来(第二部分):实施可扩展的地理空间分析与人工智能

本文探讨了汽车行业的地理空间分析,重点介绍如何在Databricks平台上构建可扩展的地理空间管道。该平台利用AI、ML和合成数据提供实时洞察,简化空间任务并支持大规模数据处理。开发者可使用合成数据生成工具创建真实测试数据,优化出行和安全规划。同时,Databricks通过大型语言模型简化地理编码,将非结构化文本转化为结构化地理数据。

解锁汽车行业的未来(第二部分):实施可扩展的地理空间分析与人工智能

Databricks
Databricks · 2025-11-11T17:30:00Z
进入全宇宙:开放世界基础模型为物理AI开发生成合成世界

NVIDIA更新了Cosmos模型,支持生成物理AI所需的合成数据,帮助开发者在模拟环境中训练机器人,从而加速AI开发并提升机器人在真实场景中的表现。

进入全宇宙:开放世界基础模型为物理AI开发生成合成世界

NVIDIA Blog
NVIDIA Blog · 2025-10-29T13:00:30Z

黄仁勋的女儿Madison首次直播,讨论具身智能与仿真技术。她与光轮智能CEO探讨如何缩小机器人虚拟与现实的差距,强调合成数据在解决数据瓶颈中的重要性。光轮智能专注于自动驾驶和具身智能,致力于提升物理准确性和数据效率。

黄仁勋女儿直播亮相,聊了具身智能

量子位
量子位 · 2025-10-16T10:52:54Z
如何利用合成数据构建投资组合项目

合成数据生成方法可有效解决真实数据集的隐私、缺失和成本问题。文章介绍了随机、规则、模拟和AI驱动的合成数据生成技术,并展示了如何利用这些数据构建机器学习模型和Streamlit应用,实现房价预测。

如何利用合成数据构建投资组合项目

KDnuggets
KDnuggets · 2025-09-22T16:00:03Z

马斯克关注的AI报告预测,到2030年,AI算力成本将超过千亿美元,电力需求巨大,公开数据预计到2027年将耗尽,合成数据将成为补充。AI有望推动科学突破,提升多个领域的研发能力。

马斯克刚关注了这份AI报告

量子位
量子位 · 2025-09-19T05:40:08Z

阿里通义DeepResearch模型在多个评测中超越OpenAI,成为开源Agent模型的领军者。该模型通过增量预训练和后训练,利用合成数据生成高质量训练集,提升推理和决策能力,已广泛应用于阿里内部项目。

开源Agent模型榜第一名,现在是阿里通义DeepResearch

量子位
量子位 · 2025-09-18T05:48:57Z
合成数据在人工智能中的利弊:三个问题

合成数据通过算法生成,模仿真实数据的统计特性。预计到2024年,AI应用中超过60%的数据将为合成数据。合成数据能保护隐私、降低成本、加快模型开发,但需谨慎评估以防性能损失。它在软件测试和机器学习模型训练中应用广泛,但也存在信任和偏见等风险。

合成数据在人工智能中的利弊:三个问题

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2025-09-03T04:00:00Z
NVIDIA研究塑造物理人工智能

物理人工智能结合神经图形、合成数据生成和物理模拟等技术,推动机器人和自动驾驶的发展。NVIDIA在SIGGRAPH大会上展示了新软件库和研究成果,强调虚拟环境在训练物理AI中的重要性。

NVIDIA研究塑造物理人工智能

NVIDIA Blog
NVIDIA Blog · 2025-08-11T15:00:38Z
使用Faker生成合成数据集

本文介绍了如何使用Python的Faker库生成合成数据,包括用户记录和交易数据。Faker能够模拟真实世界的数据缺陷,如缺失值和重复项,适用于数据分析和机器学习模型的测试。文章提供了详细的代码示例,帮助用户掌握合成数据生成的基本方法。

使用Faker生成合成数据集

MachineLearningMastery.com
MachineLearningMastery.com · 2025-07-21T14:08:31Z
进入全宇宙:世界基础模型推动自动驾驶汽车模拟与安全

NVIDIA推出Cosmos模型,利用神经重建和世界基础模型(WFM)为自动驾驶汽车创建高质量模拟环境,帮助开发者生成合成数据,提高安全性和训练效率。OpenUSD标准化促进了模拟资产的无缝集成,推动了自动驾驶汽车的发展。

进入全宇宙:世界基础模型推动自动驾驶汽车模拟与安全

NVIDIA Blog
NVIDIA Blog · 2025-06-26T13:00:10Z

在研讨会上,演讲者探讨了大型语言模型(LLM)与合成数据的关系,强调合成数据在提升模型鲁棒性和数据效率方面的重要性。他指出,尽管LLM在文本生成上表现优异,但在推理和学习能力上仍有局限。通过合成数据和新训练方法,可以更有效利用现有数据,提升模型在特定领域的适应性和性能。

第一节:大型语言模型的扩展与合成数据的作用

Josherich的博客
Josherich的博客 · 2025-06-26T00:00:01Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码