小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
科技爱好者周刊(第 390 期):没有语料,大模型就是智障

大模型的智能表现依赖于训练语料,实验显示其在冷门编程语言上的正确率仅为3.8%。微软发布的MAI-Image-2图像生成模型质量高,但使用有限。科技动态包括红牛推出可玩封面的游戏杂志和惠普推行收费真人客服。

科技爱好者周刊(第 390 期):没有语料,大模型就是智障

阮一峰的网络日志
阮一峰的网络日志 · 2026-03-26T21:49:12Z
检索做大,生成做轻:CMU团队系统评测RAG的语料与模型权衡

抱歉,您提供的文本内容过于简短,无法进行有效的总结。请提供更多信息或更长的文章内容。

检索做大,生成做轻:CMU团队系统评测RAG的语料与模型权衡

机器之心
机器之心 · 2026-01-06T02:21:55Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术

机器之心
机器之心 · 2025-08-26T02:32:34Z
最优语料感知训练用于神经机器翻译

本文介绍了最优语料感知训练(OCAT),该方法通过微调预训练模型提升模型准确性。在翻译任务中,OCAT相较于传统训练提高了3.6和1.8的chrF分数,且具有轻量、不易过拟合和强适应性等优点。

最优语料感知训练用于神经机器翻译

Apple Machine Learning Research
Apple Machine Learning Research · 2025-08-15T00:00:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

大模型推理上限再突破:「自适应难易度蒸馏」超越R1蒸馏,长CoT语料质量飞升

机器之心
机器之心 · 2025-05-05T10:35:27Z

本研究提出了一种知识驱动的多代理框架m-KAILIN,旨在解决生物医学领域开放式注释科学语料数量和质量不足的问题。该框架通过合作多代理架构提取和合成高质量文本数据,显著提升生物医学问答任务的表现,生成的数据集在一定程度上超越了现有模型。

m-KAILIN:面向生物医学大语言模型训练的知识驱动代理科学语料提取框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z
具身智能:以语料为翼,飞抵新高度

全球开发者先锋大会聚焦人工智能,讨论大模型、语料和算力等发展。库帕思科技致力于构建专业语料库,推动多模态融合,提升AI应用效果。具身智能产业强调智能体与物理世界的互动,未来将拓展应用场景。漕河泾开发区支持大会,促进科技交流与合作,共同探索AI未来。

具身智能:以语料为翼,飞抵新高度

机器之心
机器之心 · 2025-02-22T04:15:00Z
给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

浙大与阿里巴巴达摩院联合开发的多模态知识语料,通过22000小时的教学视频生成高质量教科书,显著提升视觉语言模型(VLMs)的学习和推理能力。研究表明,优质的无监督数据对VLMs性能提升至关重要。

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

机器之心
机器之心 · 2025-01-20T09:37:48Z

本研究解决了大语言模型在基于语料的语篇分析中性能不佳、虚假信息和不可复制性的问题。TACOMORE是一种有效的提示框架,提出了四大原则和五个良好提示的基本要素,有效提升了LLM在关键词、搭配和语料分析任务中的表现。研究结果表明,TACOMORE在语料库的自动定性研究中实现了准确性、伦理性、推理性和可重复性的提升。

TACOMORE:利用提示工程发挥大语言模型在基于语料的语篇分析中的潜力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-13T00:00:00Z

本研究聚焦于缩小人类与计算语言学习者之间的数据效率差距。通过优化在固定语言数据预算下的语言模型训练,研究发现采用混合因果掩蔽语言模型架构的提交成果优于其他方法,尽管在多模态轨道中无一超越基线。这一结果强调了在图像-文本建模领域的创新潜力,以及社区驱动研究在小规模语言建模中的重要性。

第二届BabyLM挑战赛的发现:在发展上可行的语料上进行样本高效预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-06T00:00:00Z

本文介绍了解决抽象与推理语料库 (ARC) 问题的新方法,包括使用DreamCoder神经符号推理求解器和大语言模型 (LLMs)。这些方法在解决ARC任务方面取得了进展,并提供了一种有趣的补充方式。同时,还发布了arckit Python库,以便未来的研究。

ARCLE: 强化学习的抽象和推理语料学习环境

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-30T00:00:00Z

本文综述了使用大规模网络挖掘语料库预训练大型语言模型(LLMs)所面临的挑战,包括噪声、内容重复、低质量或错误信息、偏见以及在网络挖掘语料库中包含敏感或个人信息等。解决这些问题对于开发准确、可靠和符合伦理责任的语言模型至关重要。通过对当前的数据清理、预处理、偏见检测和缓解方法进行检视,我们强调现有方法的不足之处,并提出未来研究的方向。我们的讨论旨在推动发展更复杂和符合伦理责任的LLMs的进步。

大规模网络挖掘语料在大型语言模型预训练中的挑战综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-10T00:00:00Z

游族网络CEO陈芳在2024世界人工智能大会强调高质量语料对人工智能发展的重要性,并分享了公司在AI领域的战略布局与实践。游族网络与火山引擎达成战略合作,共同探索AI在游戏行业的创新应用。未来,游族网络将继续加强AI等技术的投入与应用,推动文化娱乐产业的创新生态建设。

游族网络CEO陈芳出席WAIC 2024语料论坛发表演讲

量子位
量子位 · 2024-07-06T11:15:42Z

本文讨论了中文语料的分类和价值,指出营销类内容多为垃圾内容,只为吸引注意力,运营类内容次之,服务于转化目的。只有价值类内容才是核心和关键。中文语料并未完全沦陷,某度的某个百科产品还不错。

3种不可不知的中文语料

王福强
王福强 · 2024-05-22T16:00:00Z

这项研究使用双阶段流程实现医学实体链接,利用领域内适应的语言模型进行生物医学文本挖掘,提升了临床文本分析性能。该方法在处理异构医学术语的复杂场景中优于多语言模型。通过评估两个临床实体链接语料库,结果表明该方法在准确度和其他指标上优于基准,提高了40-43个点。该方法能处理语言特定细微差别,为提高数字医疗记录的实用性提供了工具。

将自对齐的 BERT 模型在自动生成的荷兰维基百科语料上进行微调的生物医学实体链接

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-20T00:00:00Z
科技爱好者周刊(第 299 期):AI 的关键是语料

AI模型的关键是语料,而不是模型本身的架构和参数。更多的训练材料会显著提升模型效果,语料的质量和数量决定了模型的强弱。文章还提到了一些科技动态和工具资源。

科技爱好者周刊(第 299 期):AI 的关键是语料

阮一峰的网络日志
阮一峰的网络日志 · 2024-05-10T00:15:11Z

本研究提出了一种新的联合对比学习框架与特征对齐模型(JCFA Model),用于解决跨语料库的基于脑电图的情感识别问题。实验结果显示,该模型在跨语料库的EEG情感识别任务中的平均准确率提高了4.09%。

跨语料 EEG 情感识别的特征对齐联合对比学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-15T00:00:00Z

Lil-Bevo是BabyLM Challenge的参赛作品,使用三种方法对掩码语言模型进行预训练。基准模型表现超过随机猜测,但低于较大规模语言模型。训练较短的序列效果更好,预训练音乐对性能影响较小。掩码语言建模在一般情况下未提高模型性能,但在特定BLiMP任务上有帮助。在少量数据上训练性能良好的语言模型是困难但有潜力的任务。需要进一步研究以探索更显著的性能提升。

[征稿] 第二届 BabyLM 挑战赛:基于合理发展语料的高效预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-09T00:00:00Z

这篇文章介绍了全方位的语言学习方法,包括选择合适的语料、跟读和背诵。推荐使用Anki来记忆单词和语法,并提供了适合学习的语料来源。还分享了选择第一本英文原版书的建议,以及学习语法和扩充词汇的方法。最后,推荐了一本关于语言学习的书《Fluent Forever》,并强调了学习语法的重要性。

找到适合自己的可循之法:聊聊我对语言学习的思考

少数派
少数派 · 2024-02-29T03:38:57Z

本文提出了一种基于语料库导向的查询扩展方法,利用大语言模型的相关性评估能力系统地识别关键句子,并将其与大语言模型扩展的结果一起用于查询扩展,提高查询和目标文档的相关性预测。该方法在没有训练的情况下表现出强大的性能,特别适用于大语言模型缺乏知识的查询。

使用大型语言模型进行语料导向的查询扩展

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码