小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
沉浸式翻译 immersive translate
Dify.AI

让AI读懂「言外之意」:AI4SG团队发布首个心理健康污名语料库,破解隐性偏见识别难题

机器之心
机器之心 · 2025-08-07T13:27:42Z
🟦 我的御神签生成器是否勾勒出了语料库的边界?

文章探讨了结构对语言表达的影响,而非意义。作者通过与GPT互动发现,即使无意义的提示也能生成合理句子,表明GPT的输出受提示结构影响,尽管它不理解意义。最终,作者认为这种结构对齐在某些情况下可能已足够。

🟦 我的御神签生成器是否勾勒出了语料库的边界?

DEV Community
DEV Community · 2025-05-20T11:22:56Z

本研究引入TED2025多向平行语料库,解决了多语言低资源环境中未对齐数据的局限性,提升了大型语言模型的多语言表现。实验结果表明,基于多向平行数据训练的模型优于未对齐数据模型。

从未对齐到对齐:利用多向平行语料库扩展多语言大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究推出了一个包含35亿个标记的开放数据集,旨在提升大语言模型在复杂算法理解与执行方面的能力,推动符号推理研究。

FOL-预训练:一种复杂度注释的第一阶逻辑语料库

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了新评估指标LCP和ROUGE-LCP,以缩小代码补全评估与用户感知之间的差距,并引入SPSR-Graph处理方法,以提升模型性能和用户一致性。

结构感知的语料库构建及用户感知对齐的评估指标用于大语言模型代码补全

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-19T00:00:00Z

本研究提出了一种新方法ARC-NCA,结合神经细胞自动机与增强隐存记忆,旨在提升人工智能的抽象与推理能力,成本低于ChatGPT 4.5。

ARC-NCA:面向抽象与推理语料库的开发性解决方案

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究提出了一种自动化构建语言模型评估基准的方法,通过生成合成数据以高效评估领域特定知识,结果与人工编制高度一致,显示出提升评估性能的潜力。

在无监督文档语料库中为语言模型构建合成数据评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究建立了一个包含18.9小时潮州方言的语音语料库,提供了精准标注,促进了自动语音识别与合成的应用。

潮州-野生:首个带有拼音标注的潮州方言语料库

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-08T00:00:00Z

本研究通过增加多重语法错误修正参考和评分标准,丰富了韩语学习者语料库KoLLA,使其成为韩语二语教育研究的标准化资源,促进语言学习与评估。

通过多重参考注释和评分标准丰富韩语学习者语料库

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

本研究解决了缺乏高质量跨语言新闻文章语料库的问题,提出了20min-XD语料库,涵盖2015至2024年的约15000篇法德文新闻文章对。研究展示了新颖的数据收集与对齐方法,结果表明该语料库在跨语言相似性方面具有广泛的应用潜力,适用于多种自然语言处理任务和语言学研究。

20分钟-XD:瑞士新闻文章的可比较语料库

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-30T00:00:00Z

本研究提出了KODIS,一个包含75个国家数千个对话的双人争端解决语料库,探讨文化与冲突理论。初步分析支持愤怒表达引发升级的理论,并强调情感表达的文化差异。该语料库现已向社区开放。

KODIS:多文化争端解决对话语料库

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-17T00:00:00Z

本研究提出了 WinoWhat 语料库,以评估语言模型的常识推理能力。结果显示,模型在 WinoWhat 上的表现远低于预期,表明对 WinoGrande 的评估存在高估现象。

WinoWhat:带有常识分类的 paraphrased WinoGrande 句子的平行语料库

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-31T00:00:00Z

本研究提出了一种生成视频驱动的多语言混合对话任务,并创建了KwaiChat语料库,涵盖多种对话类型和语言。尽管GPT-4o表现最佳,但仍面临挑战,需要进一步研究。

KwaiChat:大规模视频驱动的多语言混合对话语料库

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z

本研究针对大型文本语料库中识别新兴概念的难题,提出了一种新的方法,通过分析嵌入空间的热图变化,高效准确地检测出新兴概念。研究发现少数党在引入新概念方面更为活跃,且特定概念与参议员的种族、民族和性别身份密切相关。

识别大型语料库中的新兴概念

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-28T00:00:00Z

本研究提出了一种新方法,将人机协作后编辑与大型语言模型结合,显著提升机器翻译语料库的生成效率和质量,减轻人类注释员的负担。

高效机器翻译语料库生成:结合人工后编辑与大型语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z

本研究推出了1960-1975年间美国南方报纸的历史wire文章数据集,填补了数据不足的空白,提供了量化文本分析的新视角,揭示了南方报纸在历史变革时期的独特新闻传播方式。

南方新闻 wire 语料库:一份关于中世纪 wire 文章的大规模数据集

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究探讨大语言模型在医疗保健中的应用,识别训练数据、公平性缺口及评估指标的关键问题,并提出改进建议以提升模型的公平性与透明性。

探索大语言模型在医疗保健中的应用:语料库来源、定制策略与评估指标

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究利用Matina语料库创建了一个包含72.9B标记的新波斯语数据集,解决了波斯语数据集稀缺的问题,为自然语言处理模型的发展奠定了基础。

Matina:一个大规模73B标记的波斯语文本语料库

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-13T00:00:00Z

本研究建立了EuskañolDS语料库,解决了巴斯克语与西班牙语之间代码切换的数据不足问题,为理解和生成代码切换语言奠定基础。

EuskañolDS:一个自然来源的巴斯克-西班牙语代码切换语料库

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z

本研究针对许多非洲语言资源不足的问题,提出了通过开发Kidaw'ida、Kalenjin和Dholuo三种肯尼亚语言的语言语料库来促进自然语言处理和语言研究的创新方法。研究发现,这些开放获取的语料库不仅填补了资源空白,还为当地社区量身定制的自然语言处理应用提供了支持,从而推动了语言多样性和数字转型。

构建低资源非洲语言语料库:Kidawida、Kalenjin和Dholuo的案例研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-19T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码