dotNET跨平台 ·

打字不如说话，说话不如截图——AI 代码助手的多模态输入实践

💡 原文中文，约6400字，阅读约需16分钟。

📝

内容提要

HagiCode项目通过语音识别和图片上传功能，提升了用户与AI助手的交互体验，用户可通过语音或截图解决问题，避免打字。尽管遇到WebSocket不支持自定义header的问题，但最终通过后端代理方案解决了安全性和兼容性问题。

🎯

关键要点

HagiCode项目通过语音识别和图片上传功能提升用户与AI助手的交互体验。
用户可以通过语音或截图解决问题，避免打字，提高效率。
在开发过程中，发现用户对多模态输入的需求强烈。
语音识别服务遇到WebSocket不支持自定义header的问题，最终通过后端代理方案解决。
后端代理方案保证了凭证安全性，并兼容API要求。
图片上传功能支持多种上传方式，提供良好的用户体验。
上传功能包括文件类型和大小限制，确保安全性。
总结认为，语音识别和图片上传功能显著提升了用户体验，提供了更自然的交互方式。

❓

延伸问答

HagiCode项目如何提升用户与AI助手的交互体验？

HagiCode项目通过语音识别和图片上传功能，允许用户用更自然的方式与AI助手交互，从而提升了用户体验。

在HagiCode项目中，用户对多模态输入的需求表现如何？

用户对多模态输入的需求非常强烈，认为有时说话比打字快，截图比描述更清楚。

HagiCode项目在语音识别中遇到了什么技术挑战？

项目中遇到的技术挑战是WebSocket API不支持自定义HTTP header，这影响了语音识别服务的认证信息传递。

HagiCode项目是如何解决WebSocket不支持自定义header的问题的？

通过后端代理方案解决了WebSocket不支持自定义header的问题，确保了凭证的安全性和兼容性。

HagiCode的图片上传功能有哪些特点？

图片上传功能支持多种上传方式，包括点击选文件、拖拽上传和剪贴板粘贴，并有文件类型和大小限制。

HagiCode项目总结了哪些关于用户体验的看法？

总结认为，语音识别和图片上传功能显著提升了用户体验，使用户能够用更自然的方式与AI交互。

🏷️

继续阅读

橙狮体育推出AI办赛助手，集成最新千问模型
橙狮体育推出AI办赛助手“Smartshot”，集成千问模型，能够理解自然语言指令并自动完成赛事配置。该系统实现全流程管控，实时捕捉数据，消除人工误差，并...
AI可以为您按下Stream Deck按钮
Elgato的Stream Deck 7.4软件更新引入模型上下文协议（MCP），使AI助手如Claude、ChatGPT和Nvidia G-Assist...
早报｜Claude Code 50万行代码「被开源」/OpenAI最大融资落地，估值接近万亿/招行董事长：员工很少准点下班，企业文化是最大护城河
Claude Code源码泄露，包含未发布的「赛博宠物」和「永远在线」AI助手功能。苹果因软件问题短暂上线AI选项，现已修复。微信推出压缩包预览功能，用户...
如何将VS Code与Ollama集成以实现本地AI助手
要正常运行，您需要在Linux、macOS或Windows桌面操作系统上进行设置。本文以基于Ubuntu的Linux发行版（Pop!_OS）为例，介绍了安...
没写一行代码，我用 AI 做的浏览器扩展让同事告别繁琐重复的工作，直接节省 95% 时间！
文章探讨了如何利用AI和Chrome DevTools MCP开发浏览器扩展，以简化广告素材上传流程。通过自动化，显著节省时间并降低错误率，展示了AI在开...
Claude Code 新增「电脑操控」功能，现在 AI 进化到自己写代码自己调试的阶段了
Claude Code推出的Computer Use功能可直接操控Mac桌面，实现自动编译、测试和修复代码，提升开发效率。该功能改变了传统开发方式，减少人...