大语言模型最喜欢哪种表格格式?Markdown、CSV、JSON、XML、YAML…

大语言模型最喜欢哪种表格格式?Markdown、CSV、JSON、XML、YAML…

💡 原文中文,约2300字,阅读约需6分钟。
📝

内容提要

在测试中,Markdown-KV格式的准确率最高(60.7%),但消耗的token最多,比CSV多2.7倍。CSV和JSONL格式的准确率较低(44.3%、45%),建议避免使用。Markdown表格在可读性和成本之间是折中选择(准确率51.9%)。

🎯

关键要点

  • 在测试中,Markdown-KV格式的准确率最高(60.7%),但消耗的token最多,比CSV多2.7倍。

  • CSV和JSONL格式的准确率较低(44.3%、45%),建议避免使用。

  • Markdown表格在可读性和成本之间是折中选择(准确率51.9%)。

  • 测试使用了GPT-4.1-nano模型,评估了11种不同格式的数据集。

  • Markdown-KV格式是一种在Markdown文档中采用'key: value'键值对的表示方式。

  • 测试结果显示,Markdown-KV格式的token消耗为52,104,其他格式的消耗各不相同。

  • 局限性包括仅测试了GPT-4.1 nano,以及一种数据结构,数据量较大可能造成干扰。

延伸问答

Markdown-KV格式的准确率是多少?

Markdown-KV格式的准确率为60.7%。

使用CSV格式时的准确率是多少?

CSV格式的准确率为44.3%。

Markdown表格在可读性和成本之间的表现如何?

Markdown表格的准确率为51.9%,在可读性和成本之间是折中选择。

测试中使用了哪种大语言模型?

测试中使用了GPT-4.1-nano模型。

Markdown-KV格式是什么?

Markdown-KV格式是一种在Markdown文档中采用'key: value'键值对的表示方式,用于组织结构化数据。

测试中有哪些格式的准确率较低?

CSV和JSONL格式的准确率较低,分别为44.3%和45%。

➡️

继续阅读