小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出CAFES框架,旨在提升自动作文评分的评估泛化性和多模态感知能力。通过协作多智能体的方式,显著提高了评分与人类判断的一致性,实验结果显示评分准确性提升了21%。

CAFES: A Collaborative Multi-Agent Framework for Multi-Granular Multimodal Essay Scoring

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

本研究提出了EssayJudge,旨在解决传统自动作文评分系统的特征依赖性、细微特质捕捉困难及多模态处理不足等问题。通过多模态大型语言模型,EssayJudge实现了更精确的上下文评估,推动了自动评分领域的研究进展。

EssayJudge: A Multi-Granular Benchmark for Assessing the Automated Essay Scoring Capabilities of Multimodal Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出了一种混合评分方法,通过融入语言特征提升基于大语言模型的自动作文评分系统的效果。实验结果表明,该方法在多样化写作任务中优于现有基线模型,具有显著的评价潜力。

Improving the Effectiveness of LLM-Based Automatic Scoring with Linguistic Features

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-13T00:00:00Z

研究探讨了大型语言模型(LLMs),如 GPT-4 和 GPT-3.5,在自动作文评分(AES)中的有效性。实验表明,基于 LLM 的评分系统在准确性和一致性上优于传统模型,并提升了人工评分员的表现。GPT-4 在多项评分任务中表现更佳,结合思维链(CoT)可进一步提高评分准确性。研究强调了自动评分方法的可靠性依赖于上下文,指出在教育领域应用 LLM 的挑战与潜力。

GPT-4 能否单独满足自动作文评分?:基于评分人认知的比较判断方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z

研究探讨了大型语言模型(LLMs),特别是GPT-4和GPT-3.5在自动作文评分中的有效性。结果表明,LLMs在准确性和一致性上优于传统评分模型,并能提升人工评分员的表现。GPT-4在多项评分任务中表现出色,结合思维链(CoT)可进一步提高评分准确性,显示出LLMs在教育反馈和学习表现预测中的重要潜力。

GPT-4 能进行 L2 分析性评估吗?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-29T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码