小红花·文摘

一文吃透Ollama Embeddings：概念、实操、避坑，助力RAG落地｜本地部署AI大模型必备

人言兑 ·

.NET 9 打造智能图像检索系统：AI 视觉 + 向量搜索实战

dotNET跨平台 ·

.NET+AI | MEAI | 智能工具筛选（12）

dotNET跨平台 ·

语义分块RAG方法通过计算句子间的语义相似度进行智能分块，从而提高检索精度。该方法利用百分位数等技术识别语义断点，将文本划分为连贯的块，并支持多种断点检测方式。

RAG系列-语义分块RAG（Semantic Chunking RAG）

Ethan's Blog ·

本文提出了一种新方法GeAR，解决了传统文档检索中对语义相似度和细粒度语义关系的忽视。GeAR通过融合与解码模块生成相关文本，专注于细粒度信息，且无额外计算负担，展现出优越的检索性能。

生成增强检索：GeAR

BriefGPT - AI 论文速递 ·

本文介绍了如何在Python中构建基本的重排序系统，以提高信息检索的相关性和准确性。通过定义文档类和重排序函数，结合用户查询的嵌入向量，计算文档的语义相似度和初始分数，最终生成排序后的文档列表。该系统可与检索增强生成（RAG）模型集成，优化用户响应。

如何在RAG中实现基本的重排序系统

KDnuggets ·

该研究探讨了神经网络语言模型在计算俄语语义相似度中的应用，分析了不同模型的性能，并提出了新的评估资源和基准测试，以提升俄语自然语言处理的效果。

俄罗斯专注的嵌入模型探索：ruMTEB基准和俄语嵌入模型设计

BriefGPT - AI 论文速递 ·

本文探讨了在科学文本分类中使用共引作为相似度度量的方法，结合领域特定微调和专家混合的通用适应性，显著提升了文本分类性能。同时，研究了预训练语言模型BERT的几何特征，提出了改进句子嵌入的方法，增强了语义文本相似度任务的表现。

电信领域句子嵌入的指南

BriefGPT - AI 论文速递 ·

本文探讨了余弦相似度在高维对象语义相似度量化中的表现，指出其可能导致无意义的相似度，建议谨慎使用并提出替代方法。同时比较了不同相似度计算方法的优缺点，强调基于排名的度量方法在聚类质量上的优势。

通过标准化的 ICA 转换嵌入重新审视余弦相似度

BriefGPT - AI 论文速递 ·

本文探讨了基于Transformer模型的语义相似度评估框架，分析了多种自然语言生成和问答系统的质量评估方法。研究发现，基于n-gram的机器翻译度量与人工评估一致性最高，而Word Mover Distance是有效的语义相似性测量方法。此外，提出了一种无监督质量估计方法，以提高机器翻译的质量评估效率。

机器翻译质量评估中的文本相似度作为关键指标

BriefGPT - AI 论文速递 ·

本文介绍了多种无监督学习方法，如弱监督自动摘要评估、结构感知负采样和对比学习，强调这些方法在文本表示和检索性能上的显著提升，尤其在语义相似度和开放领域问答中的应用效果。

基于教程的结构诱导负采样用于法定文件检索

BriefGPT - AI 论文速递 ·

本文提出了一种用户可控机制，通过数值标签度量词汇重叠度和语义相似度，控制 LLM 对外部知识的依赖程度，实验证明该方法有效，强调了增强 LLM 的多功能性和准确性平衡的潜力。

学会拒绝：通过知识范围限制和拒绝机制提升大型语言模型的可控性和可靠性

BriefGPT - AI 论文速递 ·

使用miniCOIL

Qdrant - Vector Database ·