大型语言模型如ChatGPT在搜索结果排名上表现优异,甚至超过了专门的搜索系统。新测试数据集NovelEval用于验证新知识的排名。一个440M的小模型在直接段落排名中超越了3B的监督模型。
本研究探讨了基础模型在基因组学、卫星成像和时间序列等领域的表现,发现简单的监督模型能够超越基础模型,强调与强基线进行比较的重要性,并提出了两种新的开源工作流程。
本研究提出了一种少样本成对排名模型,旨在解决传统监督排名模型在复杂处理流程中的问题。该模型通过增强相似查询的偏好示例,在检索基准上表现优异,接近监督模型效果,同时简化了训练流程。
本研究提出了一种基于形态学的单词分割方法,以提高神经机器翻译的性能。实验结果表明,该方法在土耳其-英语和维吾尔-中文翻译任务中显著提升效果,降低了数据稀疏性。同时,研究比较了监督与无监督模型的表现,发现监督模型在多种语言上效果更佳。
本论文评估了GPT-4在放射学报告中的表现,发现其在常见放射学任务中表现优秀。GPT-4通过示例提示得到改进,并与监督模型相匹配。错误分析表明,GPT-4在放射学知识方面具备足够水平,但在复杂上下文中偶尔出现错误。总体而言,GPT-4的输出与人工编写相当。
该论文提出了一种新的自主导航系统中目标导航的方法,称为深度推理终止代理(DITA),通过将监督模型与强化学习相结合来隐式推断目标的深度并决定结束。评估显示该方法在各个房间类型上取得了9.3%的成功率提升,并在长期轨迹环境上取得了51.2%的改进。
完成下面两步后,将自动完成登录并继续当前操作。