Jina AI ·

从原始数值识别嵌入模型

💡 原文英文，约1300词，阅读约需5分钟。

📝

内容提要

嵌入模型生成的向量具有明显的模型指纹，能够区分不同的任务指令。使用小型变换器分类器，准确率达到87%。该方法通过将浮点数视为字符序列进行标记，避免了结构假设。研究结果表明，不同模型和任务的输出模式可以有效区分，具有审计向量数据库和验证API模型使用的实际价值。

🎯

🔎

嵌入模型生成的向量不仅能区分不同的模型，还能识别任务指令。这一特性在审计向量数据库和验证API模型使用时具有重要价值，能够确保数据来源的透明性和准确性。

将浮点数视为字符序列进行标记的方式，避免了对数值结构的假设。这种方法虽然在效率上看似浪费，但却能更准确地捕捉到模型的特征，提升分类器的识别能力。

尽管分类器在识别不同模型和任务的准确率达到87%，但在处理同一模型的不同任务指令时，仍面临一定的挑战。这表明，模型的内部表示和任务适应性对输出模式有显著影响。

❓

嵌入模型的数值模式携带明显的模型指纹，可以区分不同的模型和任务指令。

通过将浮点数视为字符序列进行标记，使用小型变换器分类器可以识别模型和任务，准确率达到87%。

研究使用了10,000个多语言文本样本进行训练。

分类器是一个4层编码器变换器，具有800K参数，能够处理长序列任务。

实验结果显示模型能够有效区分不同模型和任务的输出模式，整体准确率为87%。

数字级标记化方法避免了对数值结构的假设，使得模型能够直接学习数值模式。

🏷️