BriefGPT - AI 论文速递 ·

RedWhale：通过高效持续预训练的改进韩语大语言模型

💡 原文中文，约500字，阅读约需1分钟。

📝

内容提要

KMMLU是一个新的韩语基准，包含35,030个专家级多项选择题，涵盖人文学科到STEM学科。LLMs在KMMLU上的准确率较低，需要改进。该基准已在Hugging Face Hub上公开，并整合到EleutherAI的语言模型评估工具中。

🎯

关键要点

KMMLU是一个新的韩语基准，包含35,030个专家级多项选择题，涵盖人文学科到STEM学科。
KMMLU收集了来自原始韩语考试的问题，捕捉了韩语的语言和文化方面。
测试了26个公开和专有LLM模型，发现有显著的改进空间。
最好的公开模型在KMMLU上的准确率为50.54％，低于人类平均表现62.6％。
当前适用的LLMs，例如Polyglot-Ko，表现更差。
即使是最强大的专有LLMs，例如GPT-4和HyperCLOVA X，准确率也仅为59.95％和53.40％。
KMMLU提供了追踪韩语LLMs进展的工具。
数据集已在Hugging Face Hub上公开，并整合到EleutherAI的语言模型评估工具中。

🏷️

继续阅读

梅赛德斯-奔驰首款全电动C级车型是其迄今为止最运动的一款
The Mercedes-Benz C-Class, typically a benchmark in luxury compact sedans, no...
是的，您可以在Postgres中进行混合搜索（而且您可能应该这样做）
文章讨论了在Postgres中应用混合搜索，结合传统全文搜索和向量搜索的优缺点，用户可以在同一数据库中高效检索信息，简化了使用多个数据库的复杂性。Post...
GitHub Copilot个人计划的变更
GitHub更新了状态页面，提供更具体的数据以帮助用户了解平台健康状况。同时，发布了开发者政策更新，涉及中介责任、版权和透明度，并更新了2025年的透明度...
由于Sonos最新的翻新促销，你可以以低于原价85美元的价格购买Sonos Era 100
Sonos推出了Era 100和Era 300音响的翻新款，价格分别为134美元和329美元，均低于新款。Era 100适合日常使用，支持蓝牙和语音控制；...
Deezer表示AI歌曲上传量几乎超过人类音乐
Deezer表示，每天接收近75,000首AI生成歌曲，占所有上传的44%。尽管上传量激增，AI歌曲的播放量仅占1%至3%。Deezer已开始标记AI曲目...
谷歌照片图像编辑器中的新修饰工具让您快速进行细微调整。
谷歌照片推出新的修饰工具，帮助用户快速改善照片效果，包括细化肤质、去除瑕疵、提亮眼睛和美白牙齿。用户只需选择面部并调整效果强度。这些工具正在全球范围内逐步...

RedWhale：通过高效持续预训练的改进韩语大语言模型

内容提要

关键要点

标签

继续阅读