freeCodeCamp.org ·

我如何使用Gemini Nano和Gemini API构建Makaton AI助手

💡 原文英文，约5400词，阅读约需20分钟。

📝

内容提要

我开发了一个Makaton AI助手，旨在帮助语言障碍学习者。该应用结合本地和云端AI，能够识别Makaton手势并提供英文解释。用户通过网页应用上传图像，获取描述并转化为英语，展示了计算机视觉与语言理解的结合，强调无障碍技术的重要性。

🎯

🔎

Makaton AI助手的开发强调了无障碍技术在教育中的关键作用。通过结合计算机视觉和语言理解，该应用不仅帮助语言障碍学习者更好地沟通，还促进了包容性教育的实现。这种技术的应用展示了如何通过简单的工具来提升学习者的参与感和自信心。

该项目利用Gemini Nano和Gemini API的结合，展示了本地AI与云端AI的优势互补。本地AI提供快速响应，而云端AI则在处理复杂任务时提供支持。这种灵活的架构不仅提升了应用的可用性，还确保了用户隐私，适合在网络不稳定的环境中使用。

在开发过程中，遇到的CORS错误和模型未找到的问题是常见挑战。通过使用本地服务器和动态模型发现机制，开发者能够有效解决这些问题。这些经验教训对其他开发者在构建类似项目时具有重要的参考价值，强调了调试和灵活应变的重要性。

❓

Makaton AI助手旨在帮助语言障碍学习者，通过识别Makaton手势并提供英文解释，促进无障碍沟通。

可以通过结合本地的Gemini Nano和云端的Gemini API，创建一个轻量级的网页应用，处理图像上传和描述生成。

用户通过网页应用上传图像后，助手会生成描述并将其映射到预定义的英文含义。

助手使用本地存储安全存储API密钥，确保用户数据不会离开用户的设备。

常见问题包括CORS错误、模型未找到（404）和脚本导入错误等。

助手使用浏览器的语音合成API，将AI生成的英文翻译转换为语音输出。

🏷️