亚马逊Lex是AWS提供的服务,允许开发者构建语音和文本对话界面。我利用Lex创建了一个名为BankerBot的聊天机器人,帮助客户处理银行事务。设置过程简单,仅需40分钟。我创建了基本权限角色,以便机器人有效访问AWS服务。通过意图分类,机器人能够理解用户需求,并处理问候和错误信息。
本研究提出了一种新方法,结合意图分类与超出范围检测,解决虚拟助手系统中的超出范围查询拒绝问题。该方法通过结合交叉熵损失与自动编码器学习的嵌入重构损失,提高了拒绝超出样本的准确度,同时保持了意图分类性能。
本研究评估了大型语言模型在银行业聊天机器人意图分类中的应用。结果显示,精调的SlovakBERT在准确性和假阳性率方面优于多语言生成模型,确立了其基准地位。
本文介绍了一种利用神经句向量和异常检测技术检测短文本中的错误和独特样本的方法。研究提出了新的数据采集流程,有效去除错误数据并挖掘独特数据,从而提升意图分类和槽位填充模型的鲁棒性。此外,探讨了大型语言模型在异常检测中的应用,提出多种度量方法以改善模型的效率和安全性。
本文探讨了利用音频数据进行意图分类的多模态训练方法,通过生成音频嵌入和余弦相似度实现零样本分类。实验结果表明,该方法在SLURP和目标导向对话数据集上显著提高了分类准确率,并研究了无监督方法、聚类技术和元学习在意图识别中的应用,以解决低资源环境下的分类性能问题。
本文介绍了一种基于ChatGPT的文本数据增强方法AugGPT,旨在提高数据不变性和样本大小。通过生成多样化的复述,增强了少样本学习的文本分类性能,并探讨了在低资源环境中利用合成数据提升模型效果的策略,展示了ChatGPT在情感分析和意图分类中的应用,显著提高了模型的效率和效果。
本文探讨了参数高效微调技术在不同模型间的知识迁移,提出了模块到模块的知识迁移方法(m2mKD),显著提升了分类准确率和鲁棒性。同时,研究了预训练语言模型的扩展与转移方法对样本分布变化检测能力的影响,并评估了多种技术在意图分类任务中的表现。
该研究评估了大型语言模型在不同任务和环境下的解码性能,发现解码方法与任务相关,受多种因素影响。提出了协作解码方法,允许模型在特定任务中融合各自专长,提升性能。同时,研究探讨了无监督语音编码器的应用,证明其在意图分类等任务中可与有监督方法媲美。
通过众包开发了一个波斯语对话数据集,包含22k个发言、15个领域和1061个对话。标注并训练了模型,提出了用于自然语言理解任务的基准模型,意图分类F-1得分约为91%,实体抽取F-1得分约为93%。可作为未来研究的基准。
本文提出了少样本意图分类和槽填充的新任务,并通过三个公共数据集的少样本分割建立基准。研究发现,元学习算法和原型网络算法在基准上优于fine-tuning基线。预训练的语言模型与这些小样本算法相结合,可以进一步提高模型性能。
本研究提出了一种名为RankAug的文本排名方法,通过多样性的词汇和句法,检测和过滤出最具相似意义的顶级增强文本,从而改善生成数据过滤在自然语言理解任务中的性能,特别是意图和情感分类。实验结果表明,过滤技术的精心选择可以显著提高少数派分类的准确性,提高了多达35%。
该研究评估了不同尺寸的预训练语言模型在口语语言理解方面的表现。最大的模型在意图分类准确性方面表现良好,但在槽填充方面表现不佳,并且对ASR错误敏感。
本文介绍了 Rasa NLU 的重要组件,包括语言模型、分词组件、特征提取组件、意图分类组件和实体提取器。推荐使用 SpacyNLP 作为语言模型,分词组件可选 JiebaTokenizer、MitieTokenizer 或 SpacyTokenizer。特征提取组件可使用 RegexFeaturizer 等多个组件。意图分类组件包括 MitieIntentClassifier、LogisticRegressionClassifier、SklearnIntentClassifier、KeywordIntentClassifier、DIETClassifier 和 FallbackClassifier。nlu.yml 是训练数据,可用于智能识别意图。
完成下面两步后,将自动完成登录并继续当前操作。