UsubeniFantasy ·

小猫都能懂的大模型原理 2 - 初见大语言模型

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

人们越来越倾向于使用ChatGPT而非搜索引擎。GPT是生成式预训练Transformer，基于自注意力机制的深度学习架构。通过大量文本数据训练，模型能够流畅生成语言并理解多种语言的翻译。输入输出基于Token，模型通过神经网络预测下一个Token的概率，最终生成完整句子。

🎯

❓

GPT是生成式预训练Transformer的缩写，是一种基于自注意力机制的深度学习架构。

Transformer架构的核心机制是自注意力机制。

大语言模型通过大量文本数据训练，使用神经网络预测下一个Token的概率，从而生成完整句子。

Token是输入和输出的基本单位，可以是字母、单词或符号的组合，用于表示文本数据。

大语言模型可以流畅回答未见过的内容，这种能力被称为涌现。

词嵌入将文字转换为高维向量，使得模型能够处理和理解文本数据。

🏷️

梦境：为更有帮助的ChatGPT提供更好的记忆
OpenAI推出了更强大的记忆系统，通过“梦境”功能自动更新用户信息，提高ChatGPT在互动中的时效性和准确性。该更新已向美国的Plus和Pro用户推出...
Hugo 静态博客实现 Google AdSense 广告位懒加载：从原理到实践
本文介绍了如何通过懒加载技术优化Hugo博客中的广告位，解决广告过多导致页面加载缓慢的问题。使用HTML5的<template>标签和Inte...
Google AdSense 广告拦截检测：技术原理解析与反拦截实战
本文介绍了广告拦截的原理及检测方法，包括浏览器扩展、DNS层拦截和浏览器内置拦截。检测广告是否被拦截的方法有诱饵元素、性能API和检测adsbygoogl...
在Vibe编码时代使OWASP前十名更具影响力
2025年OWASP前十名更新将重点从“过时组件”转向软件供应链安全，新增内存安全和“vibe编码”意识项，反映了开发者和网络应用安全领域对关键安全风险的共识。
Mavrix在劳德代尔堡设立美国新总部
(全球TMT 2026年06月05日讯)Mavrix宣布，在佛罗里达州劳德代尔堡设立美国总部。该公司2026年 […]
与TorchRec KeyedJaggedTensor的同步
Efficiently Using TorchRec KeyedJaggedTensor In GPU Systems