EvaByte:由 EVA 提供支持的开源 6.5B 先进无标记语言模型
原文中文,约1500字,阅读约需4分钟。发表于: 。标记化是将文本分解成更小单元的过程,长期以来一直是自然语言处理 (NLP) 中的一个基本步骤。然而,它带来了一些挑战。基于标记器的语言模型 (LM) 经常难以处理多语言文本、词汇表...
EvaByte是一种开源无标记器语言模型,通过字节级处理克服传统标记化的局限,减少数据需求,提高解码速度,支持多种数据格式。在多语言和多模态任务中表现优异,推动了NLP技术的发展。
标签
语言模型
相关的文章:本列表汇集了关于语言模型的最新研究与应用,包括微调技术、视觉语言模型的安全性及其在各领域的应用案例,助您深入了解这一前沿技术。
标记化是将文本分解成更小单元的过程,长期以来一直是自然语言处理 (NLP) 中的一个基本步骤。然而,它带来了一些挑战。基于标记器的语言模型 (LM) 经常难以处理多语言文本、词汇表...
EvaByte是一种开源无标记器语言模型,通过字节级处理克服传统标记化的局限,减少数据需求,提高解码速度,支持多种数据格式。在多语言和多模态任务中表现优异,推动了NLP技术的发展。
前两天DeepSeek发布了DeepSeek R1的报告: 技术报告原文:https://github.com […]
DeepSeek发布的DeepSeek R1报告展示了一种通过纯强化学习提升大型语言模型推理能力的新方法。研究表明,模型能够在无监督数据下自我进化,显著提升数学和编程任务的表现。团队还利用蒸馏技术实现了小模型的高效迁移,推动了AI技术的普及。尽管取得了进展,未来仍需解决多语言支持和安全性等挑战。
本研究解决了深度学习在医学工作流程中应用受限的两个主要问题:缺乏标注数据和系统缺乏可解释性。我们提出了一种名为CBVLM的方法,通过利用大规模视觉语言模型的少量学习能力,在不需要重新训练系统的情况下,显著降低了标注成本,同时保证了诊断的可解释性。实验结果表明,CBVLM在多个医学数据集和多种模型上表现优异,超越了传统的方法。
本研究提出CBVLM方法,旨在解决深度学习在医学领域面临的标注数据不足和可解释性问题。该方法利用视觉语言模型的少量学习能力,降低标注成本并确保诊断的可解释性,实验结果表明其优于传统方法。
本研究解决了黑箱文本对抗攻击中缺乏模型信息和文本离散性问题,现有方法的通用性和性能受限。提出的交叉熵攻击方法利用交叉熵优化,定义了软标签和硬标签的对抗目标,通过大量实验证明其在攻击性能、不可察觉性和句子质量方面的优越性。
本研究提出了一种交叉熵攻击方法,旨在解决黑箱文本对抗攻击中的模型信息不足和文本离散性问题。实验结果表明,该方法在攻击性能、不可察觉性和句子质量方面表现优越。
本研究针对大型视觉语言模型(LVLMs)的幻觉现象,即生成与输入图像不符的描述,进行了深入分析。我们提出了一种新的注意力修改方法,结合选择性标记强调和头部特异性调节,以在生成过程中维持视觉基础。实验表明,该方法能将幻觉率降低最高达62.3%,同时保持相似的任务表现。
本研究探讨了大型视觉语言模型中的幻觉现象,提出了一种新的注意力修改方法,成功将幻觉率降低62.3%,同时保持了任务表现。
本研究解决了语言模型容量确切表现的理解差距,特别是参数数量与每个示例计算量之间的交互关系。通过探索稀疏混合专家模型的稀疏性水平对模型性能的影响,发现存在优化稀疏性水平能同时提高训练效率和模型性能的条件。这些发现为理解 MoE 的缩放规律中的稀疏性影响提供了新视角,有助于设计更高效的架构。
本研究探讨了语言模型的容量表现,重点分析了参数数量与计算量的关系。研究表明,优化稀疏混合专家模型的稀疏性能够提升训练效率和模型性能,为理解MoE的稀疏性影响提供了新视角。
本研究旨在解决当前大型语言模型(LLM)在复杂交互环境中应用时的错误恢复能力不足的问题。提出的Agent-R框架通过迭代自我训练,利用模型引导的评论机制来自动构建自我评论数据集,以增强模型的智能代理能力。实验结果显示,Agent-R能够有效提高代理的错误修正能力,显著提升模型的学习效率和性能。
本研究提出了Agent-R框架,旨在提升大型语言模型在复杂环境中的错误恢复能力。通过自我训练和模型引导的评论机制,Agent-R有效增强了模型的智能代理能力,实验结果表明其显著提高了错误修正能力和学习效率。
本研究针对大规模语言模型在复杂推理任务中的应用,提出了新的强化学习方法以改善训练效果。通过合成试错数据和增加样本多样性,我们的T1模型在数学推理基准测试中表现优异,展现出推理扩展行为。研究表明,增加推理预算可以显著提升模型性能,无需额外验证。
本研究提出了一种新型强化学习方法,旨在提升大规模语言模型在复杂推理任务中的训练效果。通过合成试错数据和增加样本多样性,T1模型在数学推理基准测试中表现出色,展现了推理扩展能力。研究表明,增加推理预算能显著提高模型性能。
本研究解决了识别新闻中人物、地点和事件等实体的跨模态信息不一致性问题,旨在对抗信息传播中的虚假内容。提出了一种基于大型视觉语言模型的框架(LVLM4CEC),通过有效的提示策略来验证实体一致性,并扩展了现有数据集以提供手动真实数据。研究结果显示,该方法在识别实体时具有更高的准确性,特别是在事件和地点验证上优于基线方法,表明视觉语言模型在自动化跨模态实体验证中的潜力。
本研究提出了一种基于大型视觉语言模型的框架(LVLM4CEC),旨在解决新闻中实体识别的跨模态信息不一致性问题,从而提高事件和地点验证的准确性,展示了视觉语言模型在自动化验证中的潜力。
本研究解决了现代视频游戏测试中传统手动测试方法的低效与高成本问题。通过开发并实验一个AI辅助的工作流程,研究发现AI支持能够显著提升缺陷识别能力,特别是在拥有详细知识的情况下。然而,AI错误对人类决策产生负面影响,强调了优化人类与AI协作的重要性。此研究展示了AI在游戏测试工作流程中的潜力及面临的挑战,为AI的实际应用提供了有价值的见解。
本研究探讨了AI辅助工作流程在视频游戏测试中的应用,提升了缺陷识别能力,但AI错误会影响人类决策,强调了优化人机协作的重要性。