小红花·文摘

本文探讨了大型语言模型（LLMs）在长上下文推理中的挑战，并提出了一种后训练合成数据生成策略，以扩展LLMs的上下文窗口。研究表明，该模型在高达100万标记的上下文长度下表现良好，同时在通用语言任务中保持稳定性能。

通过层次合成数据生成将指令调优的LLM扩展到百万标记上下文

BriefGPT - AI 论文速递 ·

本研究使用自动注释工具ERRANT的错误类型标签指导合成数据生成，并比较了多种模型以研究如何基于错误类型标签从正确的句子生成不合语法的句子。合成数据集在BEA-19和CoNLL14测试集上表现良好，对于混合本地和非本地语言的英语人群效果优于真实训练数据。

该论文介绍了一个整合AutoML、XAI和合成数据生成的系统，提供了优良的用户体验设计。论文介绍了两种新型分类器，逻辑回归森林和支持向量树，提高了模型性能。通过实验，论文证明了该系统在糖尿病数据集和调查数据集上的准确率分别为96%和93%。此外，论文还介绍了基于模型的局部解释器MEDLEY，并评估了其与其他方法的比较。论文还研究了合成数据生成的方法，发现通过GAN增强原始数据集是最佳方法，并通过实验证明了其可靠性。作者还发现GAN在定量数据集上表现最好。

机器学习集成的解码：cattleia 辅助决策

BriefGPT - AI 论文速递 ·

该论文介绍了一个整合AutoML、XAI和合成数据生成的系统，提供了优良的用户体验设计。论文介绍了两种新型分类器，逻辑回归森林和支持向量树，提高了模型性能。通过实验，论文证明了该系统在糖尿病数据集和调查数据集上的高准确率。此外，论文还介绍了基于模型的局部解释器MEDLEY，并评估了其与其他方法的比较。研究结果表明，通过GAN增强原始数据集是生成可靠合成数据的最佳方法，特别在定量数据集上表现最好。

MultiFIX：一种从多模态数据建立模型的友好的可解释人工智能特征引导方法

BriefGPT - AI 论文速递 ·

该研究论文探讨了图神经网络在决策过程中透明度不足的问题，并提出了解决方法和数据评估。研究还探讨了合成数据生成、评估指标和解释呈现等领域的问题，并提出了缓解建议。

在保留解释的图扰动下的 PAC 可学习性

BriefGPT - AI 论文速递 ·

本研究使用自动注释工具ERRANT的错误类型标签指导合成数据生成，并比较了多种模型以研究如何基于错误类型标签从正确的句子生成不合语法的句子。构建了一个规模较大的合成数据集，其错误标签的频率分布与给定开发集相匹配。该合成数据集可以显著提高BEA-19和CoNLL14测试集的性能，并且对于混合本地和非本地语言的英语人群，其效果优于真实训练数据。

通过多任务训练和优化训练计划实现高效的语法错误校正

BriefGPT - AI 论文速递 ·

该文介绍了一种针对异构表格数据集的新算法MMM，用于聚类和合成数据生成。该算法使用EM-based聚类算法确定合成数据的聚类和恢复真实数据的结构。提出了一种名为MMMsynth的合成表格数据生成算法，该算法在测试中表现优异。

MMM 和 MMMSynth：异构表格数据的聚类和合成数据生成

BriefGPT - AI 论文速递 ·

本研究介绍了一种灵活可扩展的合成数据生成流程，应用于土耳其语，生成了13万句高质量平行句子。使用神经机器翻译、序列标注和前缀调参等三种基线模型，取得了良好的结果，并对领域外数据集进行了详尽实验，获得了有关所提方法的可迁移性和鲁棒性的深入见解。通过发布数据集、基线模型和合成数据生成流程，鼓励进一步研究土耳其语错误检测和纠正。

GECTurk：用于土耳其语的语法错误校正和检测数据集

BriefGPT - AI 论文速递 ·

通过层次合成数据生成将指令调优的LLM扩展到百万标记上下文

语法错误检测中的零射击跨语言迁移合成数据生成

机器学习集成的解码：cattleia 辅助决策

MultiFIX：一种从多模态数据建立模型的友好的可解释人工智能特征引导方法

在保留解释的图扰动下的 PAC 可学习性

通过多任务训练和优化训练计划实现高效的语法错误校正

MMM 和 MMMSynth：异构表格数据的聚类和合成数据生成

GECTurk：用于土耳其语的语法错误校正和检测数据集