小红花·文摘

如何训练AI客服机器人语料？

实时互动网 ·

科技爱好者周刊（第 390 期）：没有语料，大模型就是智障

阮一峰的网络日志 ·

检索做大，生成做轻：CMU团队系统评测RAG的语料与模型权衡

机器之心 ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

ChatGPT到底学了多少「污言秽语」？清华团队首提大语言模型中文语料污染治理技术

机器之心 ·

最优语料感知训练用于神经机器翻译

Apple Machine Learning Research ·

机器之心数据服务现已上线，提供高效稳定的数据获取，简化数据爬取流程。

大模型推理上限再突破：「自适应难易度蒸馏」超越R1蒸馏，长CoT语料质量飞升

机器之心 ·

本研究提出了一种知识驱动的多代理框架m-KAILIN，旨在解决生物医学领域开放式注释科学语料数量和质量不足的问题。该框架通过合作多代理架构提取和合成高质量文本数据，显著提升生物医学问答任务的表现，生成的数据集在一定程度上超越了现有模型。

m-KAILIN：面向生物医学大语言模型训练的知识驱动代理科学语料提取框架

BriefGPT - AI 论文速递 ·

具身智能：以语料为翼，飞抵新高度

机器之心 ·

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

机器之心 ·

本研究解决了大语言模型在基于语料的语篇分析中性能不佳、虚假信息和不可复制性的问题。TACOMORE是一种有效的提示框架，提出了四大原则和五个良好提示的基本要素，有效提升了LLM在关键词、搭配和语料分析任务中的表现。研究结果表明，TACOMORE在语料库的自动定性研究中实现了准确性、伦理性、推理性和可重复性的提升。

TACOMORE：利用提示工程发挥大语言模型在基于语料的语篇分析中的潜力

BriefGPT - AI 论文速递 ·

本研究聚焦于缩小人类与计算语言学习者之间的数据效率差距。通过优化在固定语言数据预算下的语言模型训练，研究发现采用混合因果掩蔽语言模型架构的提交成果优于其他方法，尽管在多模态轨道中无一超越基线。这一结果强调了在图像-文本建模领域的创新潜力，以及社区驱动研究在小规模语言建模中的重要性。

第二届BabyLM挑战赛的发现：在发展上可行的语料上进行样本高效预训练

BriefGPT - AI 论文速递 ·

该研究提出多种方法解决抽象推理测验（ARC）任务，包括程序综合、图形抽象框架和归纳逻辑编程。通过引入特定领域语言和优化搜索策略，系统在ARC测试中表现优异。此外，研究探讨了神经网络与强化学习的结合，展示了新模型的有效性和广泛适用性，推动了人工智能在抽象推理领域的发展。

ARCLE: 强化学习的抽象和推理语料学习环境

BriefGPT - AI 论文速递 ·

本文介绍了EvalWeb工具链，旨在从嘈杂网络数据中提取高质量中文文本，发布了1.42 TB的ChineseWebText及600 GB的高质量子集。研究探讨了多语料库的质量评估与提升方法，分析了大规模语言模型面临的数据质量挑战，并提出改善策略，以促进更可靠的人工智能系统开发。

大规模网络挖掘语料在大型语言模型预训练中的挑战综述

BriefGPT - AI 论文速递 ·

游族网络CEO陈芳在2024世界人工智能大会强调高质量语料对人工智能发展的重要性，并分享了公司在AI领域的战略布局与实践。游族网络与火山引擎达成战略合作，共同探索AI在游戏行业的创新应用。未来，游族网络将继续加强AI等技术的投入与应用，推动文化娱乐产业的创新生态建设。

游族网络CEO陈芳出席WAIC 2024语料论坛发表演讲

量子位 ·

本文讨论了中文语料的分类和价值，指出营销类内容多为垃圾内容，只为吸引注意力，运营类内容次之，服务于转化目的。只有价值类内容才是核心和关键。中文语料并未完全沦陷，某度的某个百科产品还不错。

3种不可不知的中文语料

王福强 ·

本研究提出了多种基于BERT的模型，以提高生物医学实体链接的效率和准确性。通过自我对齐预训练模型和轻量级神经方法，解决了医学名词的多样性问题，并在多个基准数据集上展示了优越性能。这些模型为数字医疗记录的自动化和结构化数据提取提供了强大工具。

将自对齐的 BERT 模型在自动生成的荷兰维基百科语料上进行微调的生物医学实体链接

BriefGPT - AI 论文速递 ·

科技爱好者周刊（第 299 期）：AI 的关键是语料

阮一峰的网络日志 ·

本文提出了多种基于脑电图的情绪识别方法，包括半监督双流自我注意对抗性图对比学习框架和多模式情感识别方法。这些方法在标记数据不足的情况下表现优越，通过特征融合和跨领域学习有效提高了情感识别的准确性和稳定性。

跨语料 EEG 情感识别的特征对齐联合对比学习

BriefGPT - AI 论文速递 ·

BabyLM挑战赛论文探讨了在合理语料库上进行样本高效的语言模型预训练，发现语境大小对模型训练有显著影响。通过合理选择训练实例和任务顺序可提升性能。提交的模型在特定任务上优于基准模型RoBERTa，显示出在低资源环境中训练语言模型的潜力。

[征稿] 第二届 BabyLM 挑战赛：基于合理发展语料的高效预训练

BriefGPT - AI 论文速递 ·

这篇文章介绍了全方位的语言学习方法，包括选择合适的语料、跟读和背诵。推荐使用Anki来记忆单词和语法，并提供了适合学习的语料来源。还分享了选择第一本英文原版书的建议，以及学习语法和扩充词汇的方法。最后，推荐了一本关于语言学习的书《Fluent Forever》，并强调了学习语法的重要性。

找到适合自己的可循之法：聊聊我对语言学习的思考

少数派 ·