小红花·文摘

AI Agent 生成合成数据：从简单提示到物理准确的训练集

Micropaper ·

本研究提出了多任务学习框架EO-IUR，针对非完整发言重写中的冗余标记和训练数据集规模有限的问题。该方法通过编辑操作标签引导生成模型关注关键标记，并引入发言增强策略，实验证明在开放域和任务导向对话中优于现有技术。

Incomplete Utterance Rewriting with Editing Operation Guidance and Utterance Augmentation

BriefGPT - AI 论文速递 ·

本研究探讨了训练数据集对端到端驾驶系统性能的影响，并提出了一种新的数据处理方法。结果表明，专家风格对策略表现有影响，且通过判定帧变化可以减少数据集规模。改进后的模型在2024年CARLA挑战赛中表现优异，并建议修改评估指标。

Hidden Biases in End-to-End Driving Datasets

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法构建训练数据集，以改善说话人分离系统在真实录音环境中的表现。评估结果显示，该方法在真实混音条件下性能提升1.65 dB，验证了现实训练集对模型性能提升的潜力。

Developing an Effective Training Dataset to Enhance the Performance of AI-based Speaker Separation Systems

BriefGPT - AI 论文速递 ·

机器学习中的偏差-方差权衡：概念与教程

BMC Software | Blogs ·

一项新法案希望揭示AI训练数据的真实内容

The Verge ·

本文研究了在给定训练数据集中寻找预测模型的问题，并提出了一种迭代过程来改进模型和非线性特征。通过有限次迭代，非线性特征转化为原始空间上的多项式。在无限次迭代的极限情况下，导出的非线性特征形成一个联想代数。每次迭代都解决一系列凸问题，逐渐提高模型的似然性，同时将模型参数空间的维数限制为一个可控制的值。

解决非相交类别识别问题的代数方法

BriefGPT - AI 论文速递 ·

现代跟踪器在透明物体上的性能下降，因为透明物体的外观受背景影响且包含干扰因素。本文提出了透明物体跟踪训练数据集Trans2k，通过该数据集训练的标准跟踪器性能提高了最多16%。本文还提出了一种新的干扰因素感知的透明物体跟踪器DiTra，取得了最佳性能，并对不透明物体也有很好的泛化能力。

透明物体追踪的新数据集与干扰识别架构

BriefGPT - AI 论文速递 ·

微软投资的人工智能公司OPENAI被纽约时报起诉，指控其非法使用纽约时报的版权内容进行训练。纽约时报要求删除使用其材料训练的GPT实例，销毁训练数据集，并禁止再次抓取纽约时报数据用于训练。纽约时报还要求赔偿和其他救济。OPENAI和微软尚未回应。纽约时报不是第一家起诉OPENAI的，也不会是最后一家。OPENAI已公布内容索引爬虫，允许出版商禁止其抓取内容。

纽约时报起诉OPENAI和微软侵权要求删除版权内容并进行巨额赔偿

蓝点网 ·

本文提出了一种基于故障注入技术的输入数据故障注入测试框架（FIUL-Data），用于测试机器学习模型对多种故意引发的数据故障的弹性。实验结果表明，FIUL-Data 框架能够评估机器学习模型的弹性，较大的训练数据集上，机器学习模型表现出更高的弹性，在较小的训练集中梯度提升方法优于支持向量回归。

PyTorch 模型的大规模故障注入应用──PyTorchFI 的扩展以提高验证效率

BriefGPT - AI 论文速递 ·

该论文调查了谈话人工智能中常识推理的研究和评估基准，对两个开放对话模型的常识能力进行了初步观察，发现其对自然交互产生了负面影响。

推动 Transformer 在常识推理中的能力

BriefGPT - AI 论文速递 ·

该文介绍了一种基于学习的框架 EMS，用于单视图 3D 眉毛重建。该框架将眉毛表示为一组纤维曲线，并通过三个模块实现重建。作者使用了包含 400 个高质量 3D 合成眉毛数据集进行训练，并证明了 EMS 在不同眉毛样式和长度上的有效性。

EMS：基于单视图图像的 3D 眉毛建模

BriefGPT - AI 论文速递 ·

本文提出了一种基于故障注入技术的输入数据故障注入测试框架（FIUL-Data），用于测试机器学习模型对多种故意引发的数据故障的弹性。实证评估结果显示，FIUL-Data 框架可以评估机器学习模型的弹性，较大的训练数据集上，机器学习模型表现出更高的弹性，在较小的训练集中梯度提升方法优于支持向量回归。

机器学习数据适用性和性能测试的故障注入测试框架

BriefGPT - AI 论文速递 ·

该研究使用可解释的潜在维度的生成音乐XAI模型在爱尔兰民间音乐的训练数据集上进行了自传体研究。结果显示，探索性的音乐创作流程突显了训练数据集的音乐特征而非生成模型本身的特征。XAI模型在迭代工作流中的应用显示出其成为比其最初设计用途更丰富和复杂工作流的潜力。

算法作曲中的自传式探索

BriefGPT - AI 论文速递 ·

AI Agent 生成合成数据：从简单提示到物理准确的训练集

Incomplete Utterance Rewriting with Editing Operation Guidance and Utterance Augmentation

Hidden Biases in End-to-End Driving Datasets

Developing an Effective Training Dataset to Enhance the Performance of AI-based Speaker Separation Systems

机器学习中的偏差-方差权衡：概念与教程

一项新法案希望揭示AI训练数据的真实内容

解决非相交类别识别问题的代数方法

透明物体追踪的新数据集与干扰识别架构

纽约时报起诉OPENAI和微软侵权 要求删除版权内容并进行巨额赔偿

PyTorch 模型的大规模故障注入应用──PyTorchFI 的扩展以提高验证效率

推动 Transformer 在常识推理中的能力

EMS：基于单视图图像的 3D 眉毛建模

机器学习数据适用性和性能测试的故障注入测试框架

算法作曲中的自传式探索

纽约时报起诉OPENAI和微软侵权要求删除版权内容并进行巨额赔偿