不常见或难以被LLM捕捉的数据 - 蝈蝈俊
💡
原文中文,约700字,阅读约需2分钟。
📝
内容提要
LLM(大型语言模型)稀缺数据包括公司内部流程和政策、主观感受和个人体验、实时动态信息、专业或非公开领域信息、个人隐私或保密信息、极端情况或罕见事件。技术进步和数据获取方法的改进可能解决其中的一些限制。
🎯
关键要点
- LLM稀缺的数据主要包括公司内部流程和政策、主观感受和个人体验、实时动态信息、专业或非公开领域信息、个人隐私或保密信息、极端情况或罕见事件。
- 公司内部流程和政策通常作为内部文档存在,涉及特定组织的运作机制。
- 主观感受和个人体验包括个人的经历、记忆,以及情感和感觉,这些信息高度个性化且独一无二。
- 实时动态信息如股市动态、新闻事件的最新发展、天气预报等,变化迅速,LLM来不及捕捉。
- 专业或非公开领域信息涉及深度知识,如高级科学研究、专业医疗知识、法律案例分析等,通常不公开或仅在专业圈内流通。
- 个人隐私或保密信息涉及个人隐私、商业秘密或国家安全等敏感信息,受到法律保护,LLM训练数据中严格禁止。
- 极端情况或罕见事件由于发生频率低,可能在训练数据中的代表性不足。
- 技术的不断进步和数据获取方法的改进可能逐步解决LLM在数据获取方面的限制。
➡️