小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
AI 范式雷达:《高质量合成数据让多步工具调用性能飙升 10%》

PROVE 论文提出了一种新方法,解决多步工具调用中的训练数据与真实工具状态错配问题。通过高质量合成数据和程序化奖励,显著提升了模型在多工具场景下的稳定性。该方法强调执行对齐,确保训练样本与部署环境共享可执行约束,降低了奖励噪声。尽管存在工具覆盖面和维护成本等限制,PROVE 为 Agent 训练提供了重要的改进方向。

AI 范式雷达:《高质量合成数据让多步工具调用性能飙升 10%》

Micropaper
Micropaper · 2026-06-03T00:00:00Z
益普索发布合成数据增强技术解决方案

益普索推出合成数据增强技术解决方案,旨在帮助品牌在样本量不足时获得可靠的数据洞察。该技术与斯坦福大学合作研发,包含表格扩散模型和SURE四维评估框架,提升市场研究数据分析能力,将成为益普索市场研究的重要组成部分。

益普索发布合成数据增强技术解决方案

全球TMT-美通国际
全球TMT-美通国际 · 2026-05-06T09:21:26Z
宝洁公司如何利用人工智能理解人类行为

宝洁公司利用人工智能和计算机视觉研究人类行为,生成合成数据并构建3D模型。研发数据科学与AI总监Oya Aran将在5月4日的OSCCA会议上分享她的研究经验,探讨在大型组织中应用先进模型的方式。会议还将有其他行业专家讨论AI与计算机视觉的未来。

宝洁公司如何利用人工智能理解人类行为

OpenCV
OpenCV · 2026-04-14T20:40:14Z
超越真实数据:从正则化的视角看合成数据

合成数据在真实数据稀缺时可提升模型的泛化能力,但过度依赖可能导致性能下降。本文提出一个学习理论框架,量化合成数据与真实数据之间的权衡,利用算法稳定性推导泛化误差界限,以确定最优的合成与真实数据比例。通过对混合数据的核岭回归分析,发现合成数据比例与测试误差呈U型关系,并在CIFAR-10和临床脑MRI数据集上进行了验证。理论扩展至领域适应,表明合理混合合成目标数据与有限源数据可减轻领域偏移,增强泛化能力。

超越真实数据:从正则化的视角看合成数据

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-30T00:00:00Z
AI Agent 生成合成数据:从简单提示到物理准确的训练集

研究表明,AI Agent驱动的合成数据生成技术能够高效构建高质量训练数据集,降低成本并提升训练速度,解决极端场景问题,标志着合成数据进入2.0时代。

AI Agent 生成合成数据:从简单提示到物理准确的训练集

Micropaper
Micropaper · 2026-03-21T00:00:00Z

合成数据是人工生成的,避免了隐私问题和高数据收集成本。本文介绍如何通过Python脚本生成合成数据,包括生成随机数据、引入关系和规则、模拟过程生成数据、创建时间序列和事件日志,以及生成文本数据。合成数据在测试和分析中非常有用,但需注意确保数据的真实性和隐私保护。

5个用于合成数据生成的实用Python脚本

KDnuggets
KDnuggets · 2026-03-19T13:52:13Z
绝对初学者的5个有趣API

本文介绍了五个易用的API:OpenRouter简化多语言模型访问;Olostep提供实时网页数据并结构化;Tinker API便于微调和训练大型语言模型;SerpApi获取实时搜索结果;MOSTLY AI Generator API生成安全合成数据。这些API帮助开发者轻松构建项目。

绝对初学者的5个有趣API

KDnuggets
KDnuggets · 2026-01-30T13:00:19Z
马斯克真没吹牛!世界模型 Genie 3 一键打造 GTA6 不是梦

Google DeepMind推出的Project Genie是一个实时渲染的交互环境,旨在推动通用人工智能(AGI)发展。该项目结合了图像控制、语言理解和物理反馈,模拟人类梦境,允许用户在短时间内自由探索虚拟场景。尽管目前存在时间限制和技术不足,但其潜力在于生成合成数据,帮助机器人学习现实技能。

马斯克真没吹牛!世界模型 Genie 3 一键打造 GTA6 不是梦

爱范儿
爱范儿 · 2026-01-30T09:05:41Z
数据质量的幻觉:重新思考基于分类器的质量过滤在大规模语言模型预训练中的应用

在混合质量数据集上进行大规模模型预训练时,数据过滤至关重要。分类器质量过滤(CQF)通过训练二分类器来区分预训练数据和高质量数据,保留高分文档。研究表明,CQF能提升下游任务表现,但可能会隐含过滤高质量数据,未必改善语言建模。与合成数据相比,CQF的效果存在显著差异,挑战了其对数据质量有效性的看法。

数据质量的幻觉:重新思考基于分类器的质量过滤在大规模语言模型预训练中的应用

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-16T00:00:00Z
2026 年值得关注的 5 大企业通信趋势

到2025年,企业员工适应AI变革,数据质量成为关键。合成数据逐渐取代真实数据,提升AI训练效果。企业重视上下文数据以优化客户体验,AI代理增强人类能力,CCaaS与CRM融合加速,UCC供应商聚焦中端市场。

2026 年值得关注的 5 大企业通信趋势

实时互动网
实时互动网 · 2026-01-08T07:00:22Z
AWS Clean Rooms 推出用于机器学习模型训练的隐私增强型合成数据集生成功能

AWS Clean Rooms推出合成数据集生成功能,帮助组织生成保留原始数据统计特征的合成数据,解决数据可用性与隐私保护的矛盾,降低重识别风险,并支持自定义隐私参数,确保合成数据符合隐私合规要求。

AWS Clean Rooms 推出用于机器学习模型训练的隐私增强型合成数据集生成功能

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-12-03T02:07:47Z
Gemini 3 Pro对决GPT-5.1:理科状元与全能大师终极一战,谁在定义AI的下半场?|Gemini 3 Pro、Reasoning、Agentic Capabilities、Multimodal、Google

谷歌Gemini 3 Pro于2025年11月发布,具备强大的推理能力和原生多模态特性,采用高质量合成数据进行快速训练,并支持工具调用。在推理和多模态分析方面,Gemini 3表现优异,标志着AI领域的重要进展。

Gemini 3 Pro对决GPT-5.1:理科状元与全能大师终极一战,谁在定义AI的下半场?|Gemini 3 Pro、Reasoning、Agentic Capabilities、Multimodal、Google

硕鼠的博客站
硕鼠的博客站 · 2025-11-20T00:43:05Z
解锁汽车行业的未来(第二部分):实施可扩展的地理空间分析与人工智能

本文探讨了汽车行业的地理空间分析,重点介绍如何在Databricks平台上构建可扩展的地理空间管道。该平台利用AI、ML和合成数据提供实时洞察,简化空间任务并支持大规模数据处理。开发者可使用合成数据生成工具创建真实测试数据,优化出行和安全规划。同时,Databricks通过大型语言模型简化地理编码,将非结构化文本转化为结构化地理数据。

解锁汽车行业的未来(第二部分):实施可扩展的地理空间分析与人工智能

Databricks
Databricks · 2025-11-11T17:30:00Z
进入全宇宙:开放世界基础模型为物理AI开发生成合成世界

NVIDIA更新了Cosmos模型,支持生成物理AI所需的合成数据,帮助开发者在模拟环境中训练机器人,从而加速AI开发并提升机器人在真实场景中的表现。

进入全宇宙:开放世界基础模型为物理AI开发生成合成世界

NVIDIA Blog
NVIDIA Blog · 2025-10-29T13:00:30Z

黄仁勋的女儿Madison首次直播,讨论具身智能与仿真技术。她与光轮智能CEO探讨如何缩小机器人虚拟与现实的差距,强调合成数据在解决数据瓶颈中的重要性。光轮智能专注于自动驾驶和具身智能,致力于提升物理准确性和数据效率。

黄仁勋女儿直播亮相,聊了具身智能

量子位
量子位 · 2025-10-16T10:52:54Z
如何利用合成数据构建投资组合项目

合成数据生成方法可有效解决真实数据集的隐私、缺失和成本问题。文章介绍了随机、规则、模拟和AI驱动的合成数据生成技术,并展示了如何利用这些数据构建机器学习模型和Streamlit应用,实现房价预测。

如何利用合成数据构建投资组合项目

KDnuggets
KDnuggets · 2025-09-22T16:00:03Z

马斯克关注的AI报告预测,到2030年,AI算力成本将超过千亿美元,电力需求巨大,公开数据预计到2027年将耗尽,合成数据将成为补充。AI有望推动科学突破,提升多个领域的研发能力。

马斯克刚关注了这份AI报告

量子位
量子位 · 2025-09-19T05:40:08Z

阿里通义DeepResearch模型在多个评测中超越OpenAI,成为开源Agent模型的领军者。该模型通过增量预训练和后训练,利用合成数据生成高质量训练集,提升推理和决策能力,已广泛应用于阿里内部项目。

开源Agent模型榜第一名,现在是阿里通义DeepResearch

量子位
量子位 · 2025-09-18T05:48:57Z
合成数据在人工智能中的利弊:三个问题

合成数据通过算法生成,模仿真实数据的统计特性。预计到2024年,AI应用中超过60%的数据将为合成数据。合成数据能保护隐私、降低成本、加快模型开发,但需谨慎评估以防性能损失。它在软件测试和机器学习模型训练中应用广泛,但也存在信任和偏见等风险。

合成数据在人工智能中的利弊:三个问题

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2025-09-03T04:00:00Z
NVIDIA研究塑造物理人工智能

物理人工智能结合神经图形、合成数据生成和物理模拟等技术,推动机器人和自动驾驶的发展。NVIDIA在SIGGRAPH大会上展示了新软件库和研究成果,强调虚拟环境在训练物理AI中的重要性。

NVIDIA研究塑造物理人工智能

NVIDIA Blog
NVIDIA Blog · 2025-08-11T15:00:38Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码