小红花·文摘

从GPT2到Kimi七年22580倍：Kimi k3怎么塞下2.8T参数？

极道 ·

人工智能论文评审：语言模型是无监督的多任务学习者（GPT-2）

freeCodeCamp.org ·

卡帕西以100美元成本和8000行代码手动构建了简易版ChatGPT，经过12小时训练后性能超越GPT-2。该项目名为nanochat，提供详细教程，旨在简化AI模型训练，促进教育。

卡帕西8000行代码手搓ChatGPT，成本仅100美元，训练12小时CORE表现超越GPT-2，手把手教程来了

量子位 ·

本研究提出了一种新框架，通过结合文本和视觉模态，从视频数据集中生成自然语言描述。该框架利用ResNet50提取视频帧特征，并通过基于GPT-2的模型生成高质量、可解释的描述，具有重要的实际应用价值。

Towards Explainable AI: Multi-Modal Transformer for Video-based Image Description Generation

BriefGPT - AI 论文速递 ·

本研究比较了GPT-2和LLaMA-2在心智理论任务中的下一个令牌预测表现。结果表明，LLaMA-2在低温度设置下的预测准确性优于GPT-2，尤其在复杂推理任务中，两者表现差异显著。

Exploring Next Token Prediction in Theory of Mind (ToM) Tasks: Comparative Experiments with GPT-2 and LLaMA-2 AI Models

BriefGPT - AI 论文速递 ·

本研究提出了ConceptFormer方法，旨在提高大型语言模型中知识图谱的使用效率。该方法通过将知识图谱信息编码为概念向量，显著提升了GPT-2模型的信息回忆能力，展现出广泛的应用潜力。

ConceptFormer: Towards Efficient Use of Knowledge Graph Embeddings in Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种结合视觉变换器与GPT-2的多模态模型，旨在提高病理图像分析中的细微病变特征理解。通过微调专门数据集，该方法显著提升了疾病分类、分割和检测的准确性，展示了数字技术在医学图像分析中的应用潜力。

提高病理学中的认知诊断：一种增强组织病理图像感知理解的深度学习方法

BriefGPT - AI 论文速递 ·

使用对比搜索的GPT-2模型进行文本生成

MachineLearningMastery.com ·

基于GPT-2模型的自动补全风格文本生成

MachineLearningMastery.com ·

OpenAI宣布将启动新的开源项目，用户可选择开发小型模型或端侧模型。自2019年开源GPT-2以来，OpenAI未再开源新模型，引发广泛讨论。尽管奥特曼认为开源是错误，GPT-4.5和GPT-5在未来几周内可能仍不会开源。

OpenAI突宣开源计划：端侧模型or小模型二选一！奥特曼在线征集投票

量子位 ·

开发者的25+个AI技术资源 - 2025年1月27日

DEV Community ·

量化的力量：压缩GPT-2，释放速度

DEV Community ·

picoGPT是一个简洁的GPT-2实现，旨在帮助学习者理解GPT的工作原理。它展示了文本生成的核心机制和模型推理过程，用户可以通过运行picoGPT逐步深入理解其架构和关键组件，但不包括训练部分。核心思想包括自回归生成和Transformer架构。

60 行 NumPy 代码带你学习GPT - 蝈蝈俊

蝈蝈俊 ·

本研究提出了一种新颖的脑信号解码技术，通过预测DINOv2模型的图像嵌入，将fMRI信号解码为图像字幕，并作为GPT-2语言模型的前缀，从而显著降低计算需求。同时，采用三维卷积神经网络更好地考虑体素位置信息，提升大脑解码的精度和效率。

Decoding fMRI Data into Captions using Prefix Language Modeling

BriefGPT - AI 论文速递 ·

从2019年到现在，是时候重新审视Tokenization了

机器之心 ·

本研究探讨了变压器中注意力机制的渐近特性，证明了所有令牌在渐进过程中相互趋同，并验证了理论结果与GPT-2模型实验的一致性。

Asymptotic Behavior of Attention in Transformers

BriefGPT - AI 论文速递 ·

本研究探讨数据窥探对神经网络代码漏洞检测的影响，结果显示其对模型性能影响有限，且GPT-2嵌入模型在复杂代码特征表示方面表现出良好的鲁棒性。

数据窥探对深度学习模型在提升代码漏洞定位中的影响

BriefGPT - AI 论文速递 ·

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

机器之心 ·

该研究探讨了大型语言模型（如GPT-2和GPT-3.5）中的性别偏见，分析了生成文本中的性别化词汇和偏见叙述。研究发现这些模型在职业选择和回答问题时存在性别刻板印象，并提出了减少偏见的算法和框架，强调了文化对性别偏见的影响，建议加强对模型的公平性测试。

大型语言模型生成的面试回答中的性别偏见

BriefGPT - AI 论文速递 ·

研究深入分析了Adam优化算法在训练语言模型时比SGD更有优势，主要因为其有效利用了$ _ ext{infty}$几何。新的收敛分析显示，在特定条件下，Adam的表现显著提升，尤其在GPT-2和ResNet模型中得到了验证。

Adam Utilizes the $ ext{l}_ ext{infty}$ Geometry of Loss Landscapes through Coordinate Adaptivity

BriefGPT - AI 论文速递 ·