谷歌的Gemini模型支持实时多模态交互,开发者可通过Google_GenerativeAI SDK在C#中构建语音应用。新推出的Multimodal Live API利用WebSockets实现双向通信,支持文本和音频的动态交换,适合自然对话应用,具备实时通信和事件驱动架构等特点。
OpenAI发布了实时API公开测试版,支持基于GPT-4的语音到语音AI应用,提升互动体验。合作伙伴包括LiveKit、Agora和Twilio。Agora负责美国及国际市场,声网负责中国市场。此举标志着OpenAI在AI应用领域的重要进展。
本文研究了测试时间训练(TTT)在处理语音应用中的分布偏移问题的应用,并探索了TTT如何帮助调整到分布偏移。实验中发现了TTT面临的关键挑战,并提出了使用BitFit作为解决挑战的参数高效微调算法。
完成下面两步后,将自动完成登录并继续当前操作。