机器之心 ·

随着大模型在长文本处理任务中的应用日益广泛，如何客观且精准地评估其长文本能力已成为一个亟待解决的问题。

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

随着大模型在长文本处理中的应用增多，传统的困惑度评估方法显现出局限性。研究表明，某些模型在困惑度上表现良好，但实际效果不佳。北京大学团队提出了新的评估指标长文本困惑度（LongPPL），更准确地反映模型在长文本处理中的能力，并提出长文本交叉熵（LongCE）以优化训练效果。

🎯

❓

传统困惑度方法对所有token进行平均计算，未能关注关键token，导致在长文本任务中表现不佳。

他们提出了长文本困惑度（LongPPL），更准确地反映模型在长文本处理中的能力。

LongCE赋予关键token更高权重，提升模型在长文本任务中的预测准确性。

长文本中，某些token对长距离上下文信息依赖较强，而其他token则依赖短上下文，关键token对评估至关重要。

该方法通过计算token在长上下文和短上下文下生成的概率差距，来量化长上下文对模型预测的提升。

实验显示，LongPPL与长文本任务的实际表现具有极高的相关性，皮尔逊相关系数达到了-0.96。

🏷️

Claude Mythos Preview 模型能力解析：大模型攻防实测与企业应对建议
绿盟科技的报告分析了Anthropic的Claude Mythos模型，指出其在0day漏洞挖掘和网络攻击中的高效能，可能增加开源供应链的风险。报告建议企...
企业在AI应用中获胜的关键是首先构建数据层
Trinity Industries通过构建强大的数据基础，实现了AI驱动的转型。首席数据官Stephen Ecker指出，数据层是战略核心，解决了数据碎...
ChatGPT下载量放缓——这可能会给OpenAI的IPO带来问题
ChatGPT的用户增长放缓，尤其是与竞争对手Claude相比。根据Sensor Tower的数据，ChatGPT在4月的卸载率同比增长413%。尽管用户...
如何在Cloudflare Workers上使用GitHub Actions进行CI/CD部署全栈Next.js应用
本文介绍了如何将Next.js应用程序部署到Cloudflare Workers，强调了其在延迟和成本效率上的优势。使用@opennextjs/cloud...
在线教程丨高性能与易部署兼得，DeepSeek-V4-Flash模型参数284B，简单任务可媲美1.6T Pro版模型
DeepSeek V4 最近发布，分为 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个版本。Pro 版本参数达到 1.6T，...
面向电商直播场景的全模态大模型推理加速方案
本文介绍了电商直播场景下的全模态理解大模型TLiveOmni在vLLM框架下的推理部署与量化优化。通过自定义插件和修复多模态Token排布，解决了vLLM...