小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
科技爱好者周刊(第 390 期):没有语料,大模型就是智障

大模型的智能表现依赖于训练语料,实验显示其在冷门编程语言上的正确率仅为3.8%。微软发布的MAI-Image-2图像生成模型质量高,但使用有限。科技动态包括红牛推出可玩封面的游戏杂志和惠普推行收费真人客服。

科技爱好者周刊(第 390 期):没有语料,大模型就是智障

阮一峰的网络日志
阮一峰的网络日志 · 2026-03-26T21:49:12Z
检索做大,生成做轻:CMU团队系统评测RAG的语料与模型权衡

抱歉,您提供的文本内容过于简短,无法进行有效的总结。请提供更多信息或更长的文章内容。

检索做大,生成做轻:CMU团队系统评测RAG的语料与模型权衡

机器之心
机器之心 · 2026-01-06T02:21:55Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术

机器之心
机器之心 · 2025-08-26T02:32:34Z
最优语料感知训练用于神经机器翻译

本文介绍了最优语料感知训练(OCAT),该方法通过微调预训练模型提升模型准确性。在翻译任务中,OCAT相较于传统训练提高了3.6和1.8的chrF分数,且具有轻量、不易过拟合和强适应性等优点。

最优语料感知训练用于神经机器翻译

Apple Machine Learning Research
Apple Machine Learning Research · 2025-08-15T00:00:00Z

机器之心数据服务现已上线,提供高效稳定的数据获取,简化数据爬取流程。

大模型推理上限再突破:「自适应难易度蒸馏」超越R1蒸馏,长CoT语料质量飞升

机器之心
机器之心 · 2025-05-05T10:35:27Z

本研究提出了一种知识驱动的多代理框架m-KAILIN,旨在解决生物医学领域开放式注释科学语料数量和质量不足的问题。该框架通过合作多代理架构提取和合成高质量文本数据,显著提升生物医学问答任务的表现,生成的数据集在一定程度上超越了现有模型。

m-KAILIN:面向生物医学大语言模型训练的知识驱动代理科学语料提取框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z
具身智能:以语料为翼,飞抵新高度

全球开发者先锋大会聚焦人工智能,讨论大模型、语料和算力等发展。库帕思科技致力于构建专业语料库,推动多模态融合,提升AI应用效果。具身智能产业强调智能体与物理世界的互动,未来将拓展应用场景。漕河泾开发区支持大会,促进科技交流与合作,共同探索AI未来。

具身智能:以语料为翼,飞抵新高度

机器之心
机器之心 · 2025-02-22T04:15:00Z
给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

浙大与阿里巴巴达摩院联合开发的多模态知识语料,通过22000小时的教学视频生成高质量教科书,显著提升视觉语言模型(VLMs)的学习和推理能力。研究表明,优质的无监督数据对VLMs性能提升至关重要。

给大模型制作图文并茂的教科书: 从2.5年的教学视频里挖掘多模态语料

机器之心
机器之心 · 2025-01-20T09:37:48Z

本研究解决了大语言模型在基于语料的语篇分析中性能不佳、虚假信息和不可复制性的问题。TACOMORE是一种有效的提示框架,提出了四大原则和五个良好提示的基本要素,有效提升了LLM在关键词、搭配和语料分析任务中的表现。研究结果表明,TACOMORE在语料库的自动定性研究中实现了准确性、伦理性、推理性和可重复性的提升。

TACOMORE:利用提示工程发挥大语言模型在基于语料的语篇分析中的潜力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-13T00:00:00Z

本研究聚焦于缩小人类与计算语言学习者之间的数据效率差距。通过优化在固定语言数据预算下的语言模型训练,研究发现采用混合因果掩蔽语言模型架构的提交成果优于其他方法,尽管在多模态轨道中无一超越基线。这一结果强调了在图像-文本建模领域的创新潜力,以及社区驱动研究在小规模语言建模中的重要性。

第二届BabyLM挑战赛的发现:在发展上可行的语料上进行样本高效预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-06T00:00:00Z

该研究提出多种方法解决抽象推理测验(ARC)任务,包括程序综合、图形抽象框架和归纳逻辑编程。通过引入特定领域语言和优化搜索策略,系统在ARC测试中表现优异。此外,研究探讨了神经网络与强化学习的结合,展示了新模型的有效性和广泛适用性,推动了人工智能在抽象推理领域的发展。

ARCLE: 强化学习的抽象和推理语料学习环境

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-30T00:00:00Z

本文介绍了EvalWeb工具链,旨在从嘈杂网络数据中提取高质量中文文本,发布了1.42 TB的ChineseWebText及600 GB的高质量子集。研究探讨了多语料库的质量评估与提升方法,分析了大规模语言模型面临的数据质量挑战,并提出改善策略,以促进更可靠的人工智能系统开发。

大规模网络挖掘语料在大型语言模型预训练中的挑战综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-10T00:00:00Z

游族网络CEO陈芳在2024世界人工智能大会强调高质量语料对人工智能发展的重要性,并分享了公司在AI领域的战略布局与实践。游族网络与火山引擎达成战略合作,共同探索AI在游戏行业的创新应用。未来,游族网络将继续加强AI等技术的投入与应用,推动文化娱乐产业的创新生态建设。

游族网络CEO陈芳出席WAIC 2024语料论坛发表演讲

量子位
量子位 · 2024-07-06T11:15:42Z

本文讨论了中文语料的分类和价值,指出营销类内容多为垃圾内容,只为吸引注意力,运营类内容次之,服务于转化目的。只有价值类内容才是核心和关键。中文语料并未完全沦陷,某度的某个百科产品还不错。

3种不可不知的中文语料

王福强
王福强 · 2024-05-22T16:00:00Z

本研究提出了多种基于BERT的模型,以提高生物医学实体链接的效率和准确性。通过自我对齐预训练模型和轻量级神经方法,解决了医学名词的多样性问题,并在多个基准数据集上展示了优越性能。这些模型为数字医疗记录的自动化和结构化数据提取提供了强大工具。

将自对齐的 BERT 模型在自动生成的荷兰维基百科语料上进行微调的生物医学实体链接

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-20T00:00:00Z
科技爱好者周刊(第 299 期):AI 的关键是语料

AI模型的关键是语料,而不是模型本身的架构和参数。更多的训练材料会显著提升模型效果,语料的质量和数量决定了模型的强弱。文章还提到了一些科技动态和工具资源。

科技爱好者周刊(第 299 期):AI 的关键是语料

阮一峰的网络日志
阮一峰的网络日志 · 2024-05-10T00:15:11Z

本文提出了多种基于脑电图的情绪识别方法,包括半监督双流自我注意对抗性图对比学习框架和多模式情感识别方法。这些方法在标记数据不足的情况下表现优越,通过特征融合和跨领域学习有效提高了情感识别的准确性和稳定性。

跨语料 EEG 情感识别的特征对齐联合对比学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-15T00:00:00Z

BabyLM挑战赛论文探讨了在合理语料库上进行样本高效的语言模型预训练,发现语境大小对模型训练有显著影响。通过合理选择训练实例和任务顺序可提升性能。提交的模型在特定任务上优于基准模型RoBERTa,显示出在低资源环境中训练语言模型的潜力。

[征稿] 第二届 BabyLM 挑战赛:基于合理发展语料的高效预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-09T00:00:00Z

这篇文章介绍了全方位的语言学习方法,包括选择合适的语料、跟读和背诵。推荐使用Anki来记忆单词和语法,并提供了适合学习的语料来源。还分享了选择第一本英文原版书的建议,以及学习语法和扩充词汇的方法。最后,推荐了一本关于语言学习的书《Fluent Forever》,并强调了学习语法的重要性。

找到适合自己的可循之法:聊聊我对语言学习的思考

少数派
少数派 · 2024-02-29T03:38:57Z

本文提出了一种基于语料库导向的查询扩展方法,利用大语言模型的相关性评估能力系统地识别关键句子,并将其与大语言模型扩展的结果一起用于查询扩展,提高查询和目标文档的相关性预测。该方法在没有训练的情况下表现出强大的性能,特别适用于大语言模型缺乏知识的查询。

使用大型语言模型进行语料导向的查询扩展

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码