小红花·文摘 - 小红花技术领袖俱乐部

大型语言模型与小型语言模型

大型语言模型与小型语言模型

ByteByteGo Newsletter ·

大型语言模型与人工智能：差异、应用案例及工具的实用指南

大型语言模型与人工智能：差异、应用案例及工具的实用指南

Databricks ·

变换器的思维方式：驱动语言模型运作的信息流

变换器的思维方式：驱动语言模型运作的信息流

KDnuggets ·

从零开始编码大型语言模型 – 理论到强化学习与人类反馈

从零开始编码大型语言模型 – 理论到强化学习与人类反馈

freeCodeCamp.org ·

10个大型语言模型关键概念解析

10个大型语言模型关键概念解析

KDnuggets ·

本研究提出了一种SUS反向传播算法，旨在提高变换器架构中长序列的计算效率。通过控制参数$c$，该算法切断大部分注意力权重的反向传播，将复杂度从$O(n^2)$降低到$O(nc)$，显著提升训练效率。

SUS Backpropagation: A Linear Backpropagation Algorithm for Long Inputs in Transformers

BriefGPT - AI 论文速递 ·

注意力可能是我们所需的一切……但为什么？

注意力可能是我们所需的一切……但为什么？

MachineLearningMastery.com ·

人工智能使静态照片生动化，展现自然面部动画的开创性研究

人工智能使静态照片生动化，展现自然面部动画的开创性研究

DEV Community ·

本研究提出了一种摊销贝叶斯后验估计方法，解决了新观察数据出现时需重新计算的问题。研究表明，逆KL估计器在预测中表现优越，尤其与变换器架构和归一化流结合时。

摊销上下文贝叶斯后验估计

BriefGPT - AI 论文速递 ·

本研究提出Mamba-Shedder方法，解决了变换器架构在序列建模中的效率问题。通过去除SSR模型的选定组件，实现了模型压缩和计算开销减少，推理速度提升最高达1.4倍，且对模型性能影响最小。

Mamba-Shedder: Post-Transformer Compression for Efficient Selective Structured State Space Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新的语义分层嵌入扩散机制，以改善变换器架构中的层次语义表示。通过谱分析的多层扩散过程，实现了全球与地方语义的一致性，显著提高了语言模型在多语言和多领域文本生成中的准确性和适应性。

大型语言模型中的语义分层嵌入扩散实现多上下文一致性

BriefGPT - AI 论文速递 ·

现代BERT

现代BERT

Measure Zero ·

初学者必懂的六个语言模型概念

初学者必懂的六个语言模型概念

MachineLearningMastery.com ·

本研究提出了SAFERec模型，旨在改善下一购物篮推荐（NBR）任务的效果。该模型通过融入物品频率信息，克服了传统变换器架构在处理重复互动和多样化产品组合时的局限性。实验结果显示，SAFERec在Recall@10指标上提升了8%。

SAFERec: Self-Attention and Frequency-Enriched Model for Next Basket Recommendation

BriefGPT - AI 论文速递 ·

生成式AI：个人深度探索 - 我的笔记与见解

生成式AI：个人深度探索 - 我的笔记与见解

DEV Community ·

本研究探讨了词义消歧（WSD）在实际文本中的应用难题，提出了词义链接（WSL）任务，并采用基于变换器的架构以提升消歧义效果，研究表明该方法有助于更好地整合词汇语义于下游应用。

Word Sense Linking: Disambiguating Outside the Sandbox

BriefGPT - AI 论文速递 ·

Geoff Hinton、Yan Lacun和Jeff Dean的学生解读人工智能的未来走向

Geoff Hinton、Yan Lacun和Jeff Dean的学生解读人工智能的未来走向

Stack Overflow Blog ·

多功能文本到图像的人工智能实现多样化的生成和编辑能力

多功能文本到图像的人工智能实现多样化的生成和编辑能力

DEV Community ·

探索ChatGPT-01-preview的架构：机器学习和深度学习技术如何构建推理AI模型

探索ChatGPT-01-preview的架构：机器学习和深度学习技术如何构建推理AI模型

DEV Community ·

向（几乎）任何人解释生成语言模型

向（几乎）任何人解释生成语言模型

Stack Overflow Blog ·