小红花·文摘

本研究提出了ImaginTalk框架，解决了视觉引导语音生成在语义、音色和情感韵律上的一致性问题。该框架基于视觉输入生成真实语音，提升了表达力和准确性，具有影视配音和辅助失声患者的潜在应用。