小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
A/B测试的陷阱:真实数据中有效与无效的实践

A/B测试的失败通常源于实验实践不当,而非产品创意问题。常见陷阱包括数据质量差、提前查看结果和错误的指标优化。解决方案包括进行数据卫生检查、使用序列测试、实施CUPED方法以减少噪声,并设定监控指标以防止意外后果。成功的团队注重自动化和严格的实验流程,以确保数据的可靠性和有效性。

A/B测试的陷阱:真实数据中有效与无效的实践

KDnuggets
KDnuggets · 2026-04-28T12:00:50Z
当200位具身从业者被拉进同一个屋子

具身智能的关注点已转向数据模型,数据采集面临认知对齐的挑战,模型训练需要大量真实数据。评测标准亟需统一,低分不一定代表模型性能差。未来应重视数据质量与复用性,推动无感化数据采集,以提升模型的泛化能力。

当200位具身从业者被拉进同一个屋子

量子位
量子位 · 2026-04-28T04:27:02Z
2026年模型风险管理:银行家修订后的跨机构指导手册

2026年,监管机构更新了模型风险管理框架,强调平台架构的重要性。新框架要求银行在模型生命周期的每个阶段自动生成合规证据,以确保数据质量和可追溯性。Databricks架构通过统一的治理层和数据管理,简化了合规流程,提高了效率,使模型风险管理与传统模型和生成式AI系统共享相同的生命周期和证据模式。

2026年模型风险管理:银行家修订后的跨机构指导手册

Databricks
Databricks · 2026-04-25T00:44:08Z
数据工程师和数据科学家的AI数据转换指南

AI数据转换利用人工智能和机器学习自动化原始数据的清洗和结构化,提升数据质量和可用性。有效的数据转换确保数据在分析和模型训练前得到清理和规范。ETL和ELT是主要的数据转换模式,其中ELT在云环境中更具可扩展性。最佳实践包括版本控制转换脚本、记录数据清洗规则、自动化测试和早期参与数据科学家。高质量的数据基础和人工审核AI生成的代码是数据驱动组织的关键。

数据工程师和数据科学家的AI数据转换指南

Databricks
Databricks · 2026-04-21T11:39:52Z

数据验证不仅限于检查缺失值或重复记录。文章介绍了五个高级Python脚本,帮助识别复杂问题,包括时间序列的连续性、语义有效性、数据漂移、层次关系和引用完整性。这些脚本自动化检测数据中的潜在逻辑错误和结构变化,确保数据质量和可靠性。

五个实用的Python脚本用于高级数据验证与质量检查

KDnuggets
KDnuggets · 2026-04-17T12:00:58Z
银行并非面临 AI 问题,而是数据平台问题

CBA Live 2026 会议强调,银行在推动 AI 创新时需建立强大的数据和治理基础。成功的银行依赖于清晰、实时的数据,而非仅仅依靠炫目的 AI 技术。与会者指出,数据质量和治理的挑战是实现 AI 应用的关键,许多银行在数据整合和实时访问方面存在问题。有效的 AI 模型需要持续监控和调整,以确保合规性和可解释性。最终,银行的成功在于其数据平台的建设,而非单一的 AI 解决方案。

银行并非面临 AI 问题,而是数据平台问题

Databricks
Databricks · 2026-04-17T05:20:11Z
数据质量手册:数据错误、开发者的角色与验证层次解析

2012年,Knight Capital因故障交易软件损失4.4亿美元,几乎破产;Target因供应链数据错误损失超过20亿美元,最终关闭所有加拿大门店。数据质量至关重要,错误数据会导致错误决策,影响企业声誉和财务。文章探讨了数据质量的重要性、常见错误类型及其成本,强调开发者在数据验证中的责任,并提出多层次的数据验证策略以确保数据准确性。

数据质量手册:数据错误、开发者的角色与验证层次解析

freeCodeCamp.org
freeCodeCamp.org · 2026-04-14T20:29:40Z
更好的工具:利用评估数据进行工具优化的方案

通过使用评估数据(evals),我们可以迭代改进智能代理的性能。评估数据作为训练数据,指导代理学习和优化行为。强调数据质量和设计的重要性,以避免过拟合,并通过手动编写、生产追踪和外部数据集获取评估,确保代理在新输入上的泛化能力。

更好的工具:利用评估数据进行工具优化的方案

LangChain Blog
LangChain Blog · 2026-04-08T19:30:20Z
什么是数据战略?组成部分、框架及其重要性

数据战略是组织收集、存储和管理数据的框架,确保数据质量和一致性。它涵盖业务对齐、架构、数据质量管理、治理、团队结构和变更管理等关键要素。缺乏数据战略可能导致决策基于过时或不完整的信息,影响AI应用的可靠性。有效的数据战略能够将数据转化为业务资产,促进组织的成长和合规。

什么是数据战略?组成部分、框架及其重要性

Redis Blog
Redis Blog · 2026-04-07T00:00:00Z
你不知道的大模型训练:原理、路径与新实践

大模型训练不仅依赖预训练,还包括后训练、评测和奖励等环节。用户体验的提升主要源于后期优化,而非单一因素。数据质量和训练流程设计对模型能力至关重要,模型表现与训练系统、架构及反馈机制密切相关。

你不知道的大模型训练:原理、路径与新实践

Tw93 的博客
Tw93 的博客 · 2026-04-03T00:00:00Z
2026科创合伙人大会成功举办!构建科创合伙人生态,激活高质量发展新动能

2026科创合伙人大会在上海成功举办,聚焦AI时代的人才与产业融合,成立科创合伙人生态,促进技术与商业协同,推动高质量发展。大会讨论了AI应用落地、技术转移及数据质量,强调企业独特优势,构建长期合作关系,助力科技成果转化。

2026科创合伙人大会成功举办!构建科创合伙人生态,激活高质量发展新动能

量子位
量子位 · 2026-03-31T04:28:04Z
席位的消亡:AI 对统一通信定价模式的影响

SaaS模式面临挑战,AI成本高昂,传统按用户付费模式不再适用。企业需探索基于使用量和结果的定价,以平衡成本与客户满意度。尽管AI提高了效率,但也导致裁员,需关注数据质量和工作流程的可移植性。

席位的消亡:AI 对统一通信定价模式的影响

实时互动网
实时互动网 · 2026-03-31T02:35:54Z
开源漏洞趋势的一年:CVE、建议和恶意软件

发现未审核的建议影响支持的软件包。如果严重性评分不正确或缺少受影响版本,请建议编辑。2025年,社区的675项贡献提升了软件行业的数据质量。

开源漏洞趋势的一年:CVE、建议和恶意软件

The GitHub Blog
The GitHub Blog · 2026-03-26T16:00:00Z
基于 Cloudflare 生态的 AI Agent 实现

本文讲述了作者如何将个人博客转变为智能助手,利用AI技术提升用户体验。作者详细描述了AI Agent的开发过程,包括知识库构建、数据存储方案选择及高效对话系统的实现。总结了项目中的挑战与解决方案,强调数据质量和架构适配的重要性。整个项目在Cloudflare生态内运行,运维成本低,效果超出预期。

基于 Cloudflare 生态的 AI Agent 实现

Surmon.me
Surmon.me · 2026-03-18T20:35:32Z
为什么你的观察性账单不断增加(这并不是供应商的错)

许多公司在观察性工具上的开支不断增加,导致成本上升。问题在于数据生成的质量和用途,而不仅仅是供应商定价。有效的观察性治理需要明确数据所有权和目的,实施自动化审查和评分机制,以提高数据质量,减少不必要的开支。

为什么你的观察性账单不断增加(这并不是供应商的错)

The New Stack
The New Stack · 2026-03-18T11:00:14Z
企业数据治理:现代完整框架

企业数据治理是管理数据资产的框架,确保数据安全、质量和合规性。有效的数据治理提升决策效率,降低风险,尤其在AI时代,成为企业竞争力的关键。

企业数据治理:现代完整框架

Databricks
Databricks · 2026-03-10T22:48:27Z

AI 原生网络基础设施加速落地,企业级 LLM 云原生化,开源生态持续突破。微软与 Anyscale 合作,华为发布 TICC 2.0,ZTE AIR MAX 降耗 40%。13 家公司结盟推动 6G 开源平台,隐私优先的 Agent 框架崛起,数据质量成为 AI 栈核心。

AI Infra Brief|AI 原生网络与企业级 LLM Serving(2026.03.04)

dotNET跨平台
dotNET跨平台 · 2026-03-04T23:45:18Z
阿里巴巴通义千问团队继续推出小模型 9B参数能力甚至超过120B的开源同行

阿里巴巴通义千问团队推出适合边缘设备的小型模型,参数范围从0.8B到9B,强调以少量算力实现高智能。新模型在架构和数据质量上进行了优化,未来将推出更小的基础模型。

阿里巴巴通义千问团队继续推出小模型 9B参数能力甚至超过120B的开源同行

蓝点网
蓝点网 · 2026-03-03T00:30:06Z

大型语言模型(LLMs)如GPT-4的崛起改变了人工智能领域,数据工程在此过程中变得至关重要。处理非结构化数据并建立高质量数据管道是支持模型训练和推理的关键。数据科学家需关注数据质量、来源及其对模型行为的影响,以构建可靠的AI系统。

LLM时代的数据工程

KDnuggets
KDnuggets · 2026-03-02T15:00:37Z
ICLR 2025 杰出论文:一次训练就能计算数据价值——AI 版权和数据治理的新突破

本文提出了In-Run Data Shapley方法,实时追踪训练数据对模型的贡献,解决了传统方法计算复杂度高的问题。研究表明,数据价值在训练过程中会变化,精心策划的数据集可能仍包含负面数据,强调了数据治理的重要性。该方法为AI版权和数据质量提供了新视角,具有广泛的应用前景。

ICLR 2025 杰出论文:一次训练就能计算数据价值——AI 版权和数据治理的新突破

Micropaper
Micropaper · 2026-03-01T05:30:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码