Meta Spirit LM 在新的多模态生成AI模型中整合语音与文本
原文英文,约600词,阅读约需2分钟。发表于: 。Presented in a recent paper, Spirit LM enables the creation of pipelines that mixes spoken and written text to integrate speech and text in the same multimodal model. According to Meta, their...
Meta最近推出的Spirit LM模型结合了语音和文本,克服了以往分开处理的局限。该模型基于7B的Llama 2,采用混合训练,能够保留情感信息。尽管文本性能略逊于Llama 2,Meta计划通过改进训练和使用更大模型来提升表现。Spirit LM目前仅支持英语,且缺乏防止滥用的安全措施。