小红花·文摘 - 小红花技术领袖俱乐部

自然语言处理评估指标

自然语言处理评估指标

DEV Community ·

大语言模型对话合成与摘要能力的互助强化：针对少量对话摘要任务

大语言模型对话合成与摘要能力的互助强化：针对少量对话摘要任务

Apple Machine Learning Research ·

评估大型语言模型（LLM）性能的统计方法

评估大型语言模型（LLM）性能的统计方法

MachineLearningMastery.com ·

理解DistilBart模型及ROUGE指标

理解DistilBart模型及ROUGE指标

MachineLearningMastery.com ·

本研究通过LongFormer改进医疗文本摘要模型，提升了信息保留和摘要准确性。实验结果表明，该模型在ROUGE指标上优于传统模型，但在简洁性和可读性方面仍需改进。

An Accurate and Efficient Medical Text Summarization Framework Based on LongFormer

BriefGPT - AI 论文速递 ·

本研究提出了一种基于Transformer的中文新闻摘要模型CNsum，实验结果表明其在ROUGE评分上优于基线模型，显示出良好的应用潜力。

CNsum: Automatic Summarization of Chinese News Text

BriefGPT - AI 论文速递 ·

【大模型】评测指标解析（准确率/精确率/召回率/F1分数/rouge/Perplexity/BLEU）

【大模型】评测指标解析（准确率/精确率/召回率/F1分数/rouge/Perplexity/BLEU）

同和故事匯 ·

本研究提出了CriSPO模型，旨在提升大语言模型生成摘要的质量。通过提取源文档中的关键短语，模型显著提高了摘要的ROUGE F1和召回率，强调了短语级显著信息的重要性，为基于提示的摘要系统提供了新思路。

CriSPO: Multi-Faceted Critique and Suggestion-Guided Automatic Prompt Optimization for Text Generation

BriefGPT - AI 论文速递 ·

我们提出了一种关键词取向的评估指标 ——ROUGE-K，该指标通过定量回答 “摘要中是否包含关键词”...

ROUGE-K：您的摘要是否含有关键词？

BriefGPT - AI 论文速递 ·

符号定义请参考 https://arminli.com/bleu ROUGE ROUGE 是用来评估文本摘要算法的标准集合。其中有三个评价标准分别是： ROUGE-N 是第一个 ROUGE 标准，给定候选（candidate）句子，对于所有的参考（reference…

Image Caption 评价标准——ROUGE

INTJer ·