dotNET跨平台 ·

打字不如说话，说话不如截图——AI 代码助手的多模态输入实践

💡 原文中文，约6400字，阅读约需16分钟。

📝

内容提要

HagiCode项目通过语音识别和图片上传功能，提升了用户与AI助手的交互体验，用户可通过语音或截图解决问题，避免打字。尽管遇到WebSocket不支持自定义header的问题，但最终通过后端代理方案解决了安全性和兼容性问题。

🎯

关键要点

HagiCode项目通过语音识别和图片上传功能提升用户与AI助手的交互体验。
用户可以通过语音或截图解决问题，避免打字，提高效率。
在开发过程中，发现用户对多模态输入的需求强烈。
语音识别服务遇到WebSocket不支持自定义header的问题，最终通过后端代理方案解决。
后端代理方案保证了凭证安全性，并兼容API要求。
图片上传功能支持多种上传方式，提供良好的用户体验。
上传功能包括文件类型和大小限制，确保安全性。
总结认为，语音识别和图片上传功能显著提升了用户体验，提供了更自然的交互方式。

❓

延伸问答

HagiCode项目的主要功能是什么？

HagiCode项目通过语音识别和图片上传功能提升用户与AI助手的交互体验。

用户为什么需要多模态输入？

用户对多模态输入的需求强烈，因为有时说话比打字快，截图比描述更清晰。

HagiCode如何解决WebSocket不支持自定义header的问题？

HagiCode通过后端代理方案解决了WebSocket不支持自定义header的问题，确保了安全性和兼容性。

HagiCode的图片上传功能有哪些特点？

图片上传功能支持多种上传方式，包含文件类型和大小限制，确保用户体验和安全性。

使用HagiCode的语音识别功能需要注意什么？

使用语音识别功能时，需要麦克风权限，并建议在安静环境下使用，最大录音时长为300秒。

HagiCode项目的总结是什么？

总结认为，语音识别和图片上传功能显著提升了用户体验，提供了更自然的交互方式。

🏷️

继续阅读

众测｜邀你一同探索随身 AI 硬件入口 YoooClaw C·ONE
YoooClaw C·ONE是一款新型智能卡片，旨在提升AI助手的使用体验。它可连接手机，整理通知，生成待办事项，并通过语音指令简化操作。用户可长按说话记...
Anaconda收购Outerbounds，以控制AI代理生成的缺陷代码
Anaconda收购Outerbounds，旨在提升AI开发平台，提供从实验到生产的治理路径。AI生成代码占企业新代码近一半，但缺陷率高。Anaconda...
移动端 Agent 的井喷或许近在眼前：以 ColorOS 抛砖引玉
本文探讨了移动端AI助手的现状与未来，重点分析了ColorOS中的小布助手的功能及其优缺点。作者指出，尽管AI助手功能多样，但缺乏统一性。未来，随着技术进...
GPT-5.5 发布：OpenAI 这次真的在”干活”了
OpenAI发布的GPT-5.5是迄今最智能的模型，能够自主拆解和完成复杂任务，显著提升编程效率。尽管价格翻倍，但在复杂任务中的性价比有所提高。AI助手的...
企业在AI应用中获胜的关键是首先构建数据层
Trinity Industries通过构建强大的数据基础，实现了AI驱动的转型。首席数据官Stephen Ecker指出，数据层是战略核心，解决了数据碎...
将AI令牌使用量减少96%？AWS Strands Agents是如何做到的
AWS开发者倡导者摩根·威利斯讨论了Strands Agents的开源框架，该框架自发布以来已下载超过1400万次。她演示了如何通过意图驱动的工具将API...