小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
数据质量的幻觉:重新思考基于分类器的质量过滤在大规模语言模型预训练中的应用

在混合质量数据集上进行大规模模型预训练时,数据过滤至关重要。分类器质量过滤(CQF)通过训练二分类器来区分预训练数据和高质量数据,保留高分文档。研究表明,CQF能提升下游任务表现,但可能会隐含过滤高质量数据,未必改善语言建模。与合成数据相比,CQF的效果存在显著差异,挑战了其对数据质量有效性的看法。

数据质量的幻觉:重新思考基于分类器的质量过滤在大规模语言模型预训练中的应用

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-16T00:00:00Z

在数据过滤中,LEFT ANTI JOIN通常比NOT IN更高效,能够更快返回相同结果,避免广播错误,优化查询性能,尤其在处理大数据集时。

NOT IN与LEFT ANTI JOIN:性能比较

桑弧蓬矢射四方
桑弧蓬矢射四方 · 2025-12-27T22:54:00Z
数据集、文档与重复:不平等数据质量的实用性

本文探讨了数据过滤对模型性能的影响,研究表明,适当修改训练方法并重复使用经过严格过滤的数据集,可以在不同计算预算下超越使用更大数据集的效果。此外,优化文档计数可提升数据集质量,尽管大语言模型不断扩展,数据过滤仍是重要的研究方向。

数据集、文档与重复:不平等数据质量的实用性

Apple Machine Learning Research
Apple Machine Learning Research · 2025-09-22T00:00:00Z

本研究提出了一种高效的数据验证策略,优化大语言模型训练中的种子数据选择,构建数据过滤管道,提高过滤效率和分类器质量,创建了包含1万亿英语标记和1200亿中文标记的高质量数据集。

超细网:高效的数据过滤和验证用于高质量大语言模型训练数据

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z
一次构建,永远过滤:在Power Automate中自动化Process Street数据集查询

本文介绍了如何通过Power Automate过滤Process Street的数据集,解决API连接器无法按列过滤的问题。通过设置变量、使用“Do Until”循环和过滤逻辑,可以高效处理分页数据并动态过滤。建议Process Street开发者改进API以简化数据过滤。

一次构建,永远过滤:在Power Automate中自动化Process Street数据集查询

DEV Community
DEV Community · 2025-04-18T21:20:18Z

本研究提出了一种能量奖励模型(EBRM),有效解决了现有模型在捕捉复杂人类偏好和泛化能力不足的问题。通过数据过滤和对比训练,EBRM显著提升了模型的稳健性和表现。

基于能量的奖励模型用于稳健的语言模型对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

Pandas是Python的主要数据处理库,但许多人使用不当,导致效率低下。应避免逐行循环,改用向量化操作以提高性能。使用query()进行数据过滤,astype()节省内存,groupby()快速汇总数据,merge()高效合并数据,并合理使用.apply()。这些技巧能显著提升Pandas代码的可读性和执行速度。

7个节省时间的Pandas技巧

KDnuggets
KDnuggets · 2025-03-24T14:00:52Z
元数据自动化与优化 - Reece Griffiths | 向量空间讲座

元数据是提高检索准确性和文件组织的重要因素。Deasy Labs首席执行官Reece Griffiths指出,元数据在向量搜索中至关重要,能够提升检索效率和分类能力。通过自动化和优化,元数据改善数据过滤和索引,并支持基于角色的访问控制。

元数据自动化与优化 - Reece Griffiths | 向量空间讲座

Qdrant - Vector Database
Qdrant - Vector Database · 2025-02-24T21:29:51Z

SQL中的子查询是简化复杂数据任务的重要工具,分为单行、多行和相关子查询,常用于数据过滤和创建派生表。掌握这些基础知识有助于提升数据处理能力。

SQL子查询初学者指南

KDnuggets
KDnuggets · 2025-02-10T17:00:38Z
基于租户的过滤:Apache Superset

本文探讨了在Apache Superset中实施行级安全(RLS)以创建多租户仪表板,动态过滤用户公司数据。通过在关键表中添加company_id列,确保不同公司只能访问各自数据。管理员可查看所有数据,而普通用户仅能访问相关信息。RLS通过用户邮箱自动过滤数据,确保安全高效的多租户环境。

基于租户的过滤:Apache Superset

DEV Community
DEV Community · 2025-02-07T19:01:14Z

本研究探讨大型语言模型在微调过程中易受恶意攻击的问题,提出了一种新型“病毒”攻击方法,能够绕过数据过滤,泄露率高达100%,表明仅依赖守卫中介无法解决安全隐患。

Virus: Malicious Fine-tuning Attacks that Bypass Guard Mediators

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z
如何在 JavaScript 中使用 Object.fromEntries() 将可迭代对象转换为普通对象

Object.fromEntries() 方法用于将可迭代对象(如数组或 Map)转换为普通对象,简化了键值对管理,支持数据过滤和修改。该方法在 Chrome、Firefox、Safari 和 Node.js 中受支持,但处理大数据集时需注意性能问题。

如何在 JavaScript 中使用 Object.fromEntries() 将可迭代对象转换为普通对象

DEV Community
DEV Community · 2025-01-22T03:53:39Z
🧹 使用Predicate接口提升数据过滤效果!

在处理列表时,使用Predicate接口可以简化数据过滤,提升代码的可读性和维护性。通过组合不同的Predicate,可以灵活添加过滤规则,简化代码逻辑。

🧹 使用Predicate接口提升数据过滤效果!

DEV Community
DEV Community · 2025-01-04T00:47:03Z
TryHackMe | Windows PowerShell | RSCyberTech

本文介绍了PowerShell的基础知识,包括命令获取、文件系统导航、数据过滤和远程命令执行。通过具体任务,读者学习了使用Get-Command、Get-ChildItem和Get-Help等命令,掌握了基本的脚本编写和系统分析技能。

TryHackMe | Windows PowerShell | RSCyberTech

DEV Community
DEV Community · 2025-01-03T18:32:37Z

本研究提出了一种新方法ResoFilter,通过数据-参数共振分析优化大型语言模型的合成数据过滤。研究表明,ResoFilter在数学任务中仅需一半数据即可实现全面微调,具有广泛的模型和领域适用性,为合成数据集构建和质量评估提供新视角。

ResoFilter:通过数据-参数共振分析对大型语言模型进行精细化合成数据过滤

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-19T00:00:00Z

本研究提出了CleanComedy,一个经过过滤的英语和俄语笑话语料库,旨在解决自然语言处理中的幽默生成问题。研究验证了数据过滤方法的有效性,显著提高了计算机生成幽默的质量。

CleanComedy:通过生成技术创造友好的幽默

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z
在JS中递归遍历对象 - 工具函数 #1

本文介绍了一个名为loopObj的函数,用于遍历嵌套对象。该函数在每次迭代时执行回调,以提取有用数据,适用于数据过滤、UI导航和数据库循环等场景。文中提供了示例代码以演示其用法。

在JS中递归遍历对象 - 工具函数 #1

DEV Community
DEV Community · 2024-11-13T15:00:00Z
稳健的自动语音识别转录:利用外部知识进行保守错误修正

该论文提出了一种通过保守数据过滤来改进自动语音识别(ASR)系统错误修正的方法。该方法通过过滤低置信度转录并利用外部知识源,显著提升了ASR系统性能。

稳健的自动语音识别转录:利用外部知识进行保守错误修正

DEV Community
DEV Community · 2024-11-11T23:35:24Z
Grafana变量:它们是什么以及如何创建动态仪表板

Grafana仪表板通过使用变量实现动态数据过滤和聚焦,便于监控多个服务器。变量包括全局变量和用户定义变量,支持下拉列表和文本框等形式,简化查询和数据选择。用户可通过数据链接快速过滤数据,提升仪表板的交互性和实用性。

Grafana变量:它们是什么以及如何创建动态仪表板

engineering on Grafana Labs
engineering on Grafana Labs · 2024-10-30T00:00:00Z
链式LINQ查询的条件应用

作者探讨了在C#中使用LINQ进行数据过滤和转换的技巧,特别是通过扩展方法简化条件判断。通过创建`If`扩展方法,可以在链式操作中处理条件逻辑,比如查找最高偶数时,如果没有偶数则抛出异常。这提高了代码可读性,避免了使用临时变量。

链式LINQ查询的条件应用

DEV Community
DEV Community · 2024-10-22T20:59:47Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码