BriefGPT - AI 论文速递 ·

预测古代汉字文本中的标点符号：一种多层LSTM和基于注意力的方法

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文探讨了古代中文翻译的挑战，提出了多标签预测任务和古籍BERT、古籍GPT模型，以提高翻译质量。研究开发了AC-EVAL基准测试，评估大型语言模型在古代汉语理解方面的能力，显示出其巨大潜力。同时，介绍了中文历史信息抽取语料库，推动古代历史文化研究。

🎯

关键要点

本文解决古代中文翻译中的语言困境和信息缺失，提出多标签预测任务以提高翻译质量。
研究建立了古汉语至关文数据集，探讨现有语言模型在古代汉语任务上的表现。
介绍古籍BERT和古籍GPT模型，通过自监督方法提升古籍相关自然语言处理任务的能力。
提出古代汉语词分割和词性标注框架，有效提升模型性能。
设计AC-EVAL基准测试，评估大型语言模型在古代汉语理解方面的能力，发现其潜力巨大。
利用中文历史信息抽取语料库推进古代历史和文化研究，涵盖多个朝代的数据。
提出多模态多粒度分词器，促进楚简脚本的研究，并提高词性标注任务的F1-score。

❓

延伸问答

古代汉字文本翻译面临哪些挑战？

古代汉字文本翻译面临语言困境和信息缺失的问题。

什么是古籍BERT和古籍GPT模型？

古籍BERT和古籍GPT是针对古籍相关自然语言处理任务的基础模型，通过自监督方法提升模型能力。

AC-EVAL基准测试的目的是什么？

AC-EVAL基准测试旨在评估大型语言模型在古代汉语理解方面的高级知识和推理能力。

如何提高古代汉语翻译的质量？

通过采用多标签预测任务和建立古汉语至关文数据集，可以提高古代汉语翻译的质量。

研究中如何评估语言模型在古代汉语任务上的表现？

研究通过设计AC-EVAL基准测试，评估语言模型在古代汉语任务上的表现。

中文历史信息抽取语料库的作用是什么？

中文历史信息抽取语料库用于推进古代历史和文化研究，支持命名实体识别和关系提取任务。

🏷️

标签

历史信息抽取古代中文翻译古籍BERT 古籍GPT 多标签预测

➡️

继续阅读

基于超1万肿瘤样本训练，哈佛医学院等提出泛癌症基础模型COMPASS，平均性能优于22种现有方法
COMPASS 首次将这一架构引入癌症转录组分析领域，通过利用免疫相关基因集，并建立：基因（gene）→ 基因集（gene set）→ 概念（concep...
Wolves, sheep, and gypsies
In 2012, the first Danish wolf in nearly two hundred years was discovered in ...
13 Google tips for a fun, productive summer off from college
Illustration of a woman in front of a computer, a phone searching an image of...
Why R&D Data Belongs in the Lakehouse - and Why Agents Need It There
The setupAt cellcentric, a joint venture of Daimler Truck and Volvo Group, we...
How Dow Built a Carbon Footprint Ledger on Databricks to Accelerate Sustainability at Scale
Why we built the Carbon Footprint LedgerAt Dow, our ambition is to be the mos...
Issue #744: CPython ABI, CLAUDE.md, Itertools Cheatsheet, and More (2026-07-21)
#744 – JULY 21, 2026 View in Browser » What Every Dev Should Know About t...