小红花·文摘

LLM嵌入与TF-IDF与词袋模型：在Scikit-learn中哪种效果更好？

MachineLearningMastery.com ·

本研究提出了一种名为AdaptCLIP的方法，用于在开放场景中识别新颖视觉领域的异常。该方法通过交替学习视觉和文本表示，结合上下文和对齐残差特征的比较学习，克服了现有方法的灵活性不足，并在多个异常检测基准上表现优异。

AdaptCLIP: A Universal Visual Anomaly Detection Method Adapted from CLIP

BriefGPT - AI 论文速递 ·

该研究提出了一种事件驱动的图对比学习方法（SE-GCL），旨在解决文本表示学习中的领域知识依赖和计算复杂性问题，从而提高算法效率，并在多个数据集上验证了其有效性。

SE-GCL：一种基于事件的简洁有效图对比学习文本表示方法

BriefGPT - AI 论文速递 ·

本研究提出了一种基于波网络的Token2Wave令牌表示方法，克服了传统文本表示的局限，能够更好地捕捉文本的全局和局部语义，同时减少视频内存和训练时间。

Token2Wave：一种基于波网络的令牌表示方法

BriefGPT - AI 论文速递 ·

该研究提出了一种新颖的“信念状态变换器”，通过预测前缀的下一个标记和后缀的前一个标记，克服了传统向前变换器的局限性。研究表明，该方法在故事写作任务中优于传统方法，提高了解码效率和文本表示质量。

Achieving Goals through Belief State Transformer Learning

BriefGPT - AI 论文速递 ·

研究表明，最新的多语言编码器在无监督的文档级和句子级跨语言信息检索中表现不如早期模型，但在监督学习下可提高准确率。提出了轻量级跨语言检索算法和混合模型HYRR，优化了波兰语信息检索资源，评估了多种检索模型的性能，最终实现了长上下文文本表示模型的突破。

使用OKAPI BM25和交叉编码器集成的波兰文本检索

BriefGPT - AI 论文速递 ·

后期分块：利用长上下文语言模型增强上下文块表示

DEV Community ·

IBKD是一种基于信息瓶颈的知识蒸馏方法，通过最大化教师模型和学生模型的互信息，减少学生模型和输入数据的互信息，以应用于文本表示和下游任务。

使用信息瓶颈保护您的 LLMs

BriefGPT - AI 论文速递 ·

通过最大化同一文本最小扰动嵌入之间的对齐，以及在更广泛的语料库中鼓励嵌入的均匀分布，基于对比学习的各种方法已被提出来从未标记的数据中学习文本表示。与最先进的方法相比，本工作在语义文本相似性任务上取得了相当的基线改进。此外，本工作是第一个这样做而不需要额外网络参数或辅助训练目标的工作。

Hyper-CL: 使用超网络对句子表示进行条件化

BriefGPT - AI 论文速递 ·

该文介绍了一种基于对比学习的方法，通过对齐文本和其短语成分组成来学习文本表示。实验结果显示，该方法在语义文本相似性任务上表现优异，且无需额外网络参数或辅助训练目标。

基于对比学习的句子编码器隐式加权信息词汇

BriefGPT - AI 论文速递 ·

DDNLP:深入NLP

Sekyoro的博客小屋 ·

本文介绍了现代自然语言处理的突破，包括大型多语种模型能够在100多种语言中执行任务。语言模型正在超越语言界限，甚至在资源有限的濒危语言的方言中获得有竞争力的表现。文章讨论了多语种文本表示的迭代进展，以及如何实现语言民主化的全部潜力，并探讨了改进范围。

多语言模型中的语言表示研究

BriefGPT - AI 论文速递 ·

通过最大化同一文本最小扰动嵌入之间的对齐，以及在更广泛的语料库中鼓励嵌入的均匀分布，基于对比学习的各种方法已被提出来从未标记的数据中学习文本表示。本工作提出了一种新的方法来最大化文本和其短语成分组成之间的对齐，并在语义文本相似性任务上取得了相当的基线改进。此外，这项工作是第一个不需要额外网络参数或辅助训练目标的工作。

学习对比的概念嵌入用于手势识别

BriefGPT - AI 论文速递 ·