Shadow Walker 松烟阁 ·

小本本系列：o3模型引发一次用好大模型工具的尝试

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

作者分析了OpenAI的o3模型，惊讶于其在图片定位和信息对齐方面的多模态能力。通过Gemini Deep Research，探索Multi-Modal Token技术，利用AI工具深入理解相关领域，进行个性化研究和数据处理。

🎯

🔎

OpenAI的o3模型在没有metadata的情况下，依然能够精确分析图片，展示了其强大的推理能力。这一突破意味着在多模态数据处理上，AI工具的应用将更加广泛，尤其是在信息对齐和协同能力方面，用户可以期待更高效的分析结果。

作者通过Gemini Deep Research进行个性化研究，快速掌握Multi-Modal Token技术。该工具的强大在于其基于Google搜索引擎的技术积累，使得用户能够在复杂领域中迅速获取结构化信息，提升研究效率。

在研究过程中，作者利用AI编程工具进行小任务的快速实现，显示了AI在日常研究中的实用性。通过自动化处理markdown格式，用户可以节省时间并提高准确性，这为非专业人士提供了便利。

❓

o3模型在图片定位和信息对齐方面表现出色，能够在没有metadata的情况下精确分析图片。

作者通过Gemini Deep Research进行个性化研究，快速建立对Multi-Modal Token的认知。

作者认为Gemini Deep Research更好用，得益于Google多年的搜索引擎技术积累。

作者使用了Cursor、Cline等AI编程工具来快速实现小任务。

o3模型通过对不同模态的信息进行有效对齐，解决了多模态数据处理中的语义差距问题。

作者使用AI工具将reference的number list转换成footnote格式，以便于引用和校准资料来源。

🏷️