不常见或难以被LLM捕捉的数据 - 蝈蝈俊

💡 原文中文,约700字,阅读约需2分钟。
📝

内容提要

LLM(大型语言模型)稀缺数据包括公司内部流程和政策、主观感受和个人体验、实时动态信息、专业或非公开领域信息、个人隐私或保密信息、极端情况或罕见事件。技术进步和数据获取方法的改进可能解决其中的一些限制。

🎯

关键要点

  • LLM稀缺的数据主要包括公司内部流程和政策、主观感受和个人体验、实时动态信息、专业或非公开领域信息、个人隐私或保密信息、极端情况或罕见事件。
  • 公司内部流程和政策通常作为内部文档存在,涉及特定组织的运作机制。
  • 主观感受和个人体验包括个人的经历、记忆,以及情感和感觉,这些信息高度个性化且独一无二。
  • 实时动态信息如股市动态、新闻事件的最新发展、天气预报等,变化迅速,LLM来不及捕捉。
  • 专业或非公开领域信息涉及深度知识,如高级科学研究、专业医疗知识、法律案例分析等,通常不公开或仅在专业圈内流通。
  • 个人隐私或保密信息涉及个人隐私、商业秘密或国家安全等敏感信息,受到法律保护,LLM训练数据中严格禁止。
  • 极端情况或罕见事件由于发生频率低,可能在训练数据中的代表性不足。
  • 技术的不断进步和数据获取方法的改进可能逐步解决LLM在数据获取方面的限制。
➡️

继续阅读