小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
人工智能论文评审:语言模型是无监督的多任务学习者(GPT-2)

GPT-2模型通过在大量文本上训练,仅预测下一个单词,展现出多任务能力,无需特定任务训练。这一方法标志着从监督学习向零-shot学习的转变,使模型能够在不同任务中进行泛化。研究表明,模型规模和数据量的增加有助于提升性能,推动了现代语言模型的发展。

人工智能论文评审:语言模型是无监督的多任务学习者(GPT-2)

freeCodeCamp.org
freeCodeCamp.org · 2026-05-11T15:55:27Z

卡帕西以100美元成本和8000行代码手动构建了简易版ChatGPT,经过12小时训练后性能超越GPT-2。该项目名为nanochat,提供详细教程,旨在简化AI模型训练,促进教育。

卡帕西8000行代码手搓ChatGPT,成本仅100美元,训练12小时CORE表现超越GPT-2,手把手教程来了

量子位
量子位 · 2025-10-14T02:39:29Z

本研究提出了一种新框架,通过结合文本和视觉模态,从视频数据集中生成自然语言描述。该框架利用ResNet50提取视频帧特征,并通过基于GPT-2的模型生成高质量、可解释的描述,具有重要的实际应用价值。

Towards Explainable AI: Multi-Modal Transformer for Video-based Image Description Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-23T00:00:00Z

本研究比较了GPT-2和LLaMA-2在心智理论任务中的下一个令牌预测表现。结果表明,LLaMA-2在低温度设置下的预测准确性优于GPT-2,尤其在复杂推理任务中,两者表现差异显著。

Exploring Next Token Prediction in Theory of Mind (ToM) Tasks: Comparative Experiments with GPT-2 and LLaMA-2 AI Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-22T00:00:00Z

本研究提出了ConceptFormer方法,旨在提高大型语言模型中知识图谱的使用效率。该方法通过将知识图谱信息编码为概念向量,显著提升了GPT-2模型的信息回忆能力,展现出广泛的应用潜力。

ConceptFormer: Towards Efficient Use of Knowledge Graph Embeddings in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

本研究提出了一种结合视觉变换器与GPT-2的多模态模型,旨在提高病理图像分析中的细微病变特征理解。通过微调专门数据集,该方法显著提升了疾病分类、分割和检测的准确性,展示了数字技术在医学图像分析中的应用潜力。

提高病理学中的认知诊断:一种增强组织病理图像感知理解的深度学习方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z
使用对比搜索的GPT-2模型进行文本生成

本文介绍了如何使用GPT-2模型进行文本生成,包括文本生成的核心实现、参数配置、批处理和优化技巧。内容涵盖初始化文本生成器、生成文本的参数设置(如温度、top_k和top_p),以及多个提示的批量生成方法。最后,提供了一些提高生成结果的建议,如明确提示和调整参数。

使用对比搜索的GPT-2模型进行文本生成

MachineLearningMastery.com
MachineLearningMastery.com · 2025-03-01T21:04:14Z
基于GPT-2模型的自动补全风格文本生成

本文介绍了如何使用GPT-2模型构建智能自动补全系统,强调神经网络方法相较于传统统计方法在理解上下文和提供相关建议方面的优势。文章详细讲解了系统架构、基本实现、缓存优化及批量输入处理,突出了实时性能和用户体验的重要性,并提供示例代码以帮助读者快速构建自动补全应用。

基于GPT-2模型的自动补全风格文本生成

MachineLearningMastery.com
MachineLearningMastery.com · 2025-02-24T17:39:41Z

OpenAI宣布将启动新的开源项目,用户可选择开发小型模型或端侧模型。自2019年开源GPT-2以来,OpenAI未再开源新模型,引发广泛讨论。尽管奥特曼认为开源是错误,GPT-4.5和GPT-5在未来几周内可能仍不会开源。

OpenAI突宣开源计划:端侧模型or小模型二选一!奥特曼在线征集投票

量子位
量子位 · 2025-02-18T04:41:17Z
开发者的25+个AI技术资源 - 2025年1月27日

文章介绍了多种AI工具和项目,包括在GPT2中应用的量化技术、个性化认证考试助手CertAI_Buddy以及YouTube赞助识别工具SponsoShield。这些创新旨在提高内容创作效率和用户体验。

开发者的25+个AI技术资源 - 2025年1月27日

DEV Community
DEV Community · 2025-01-26T19:11:42Z
量化的力量:压缩GPT-2,释放速度

通过量化技术,GPT-2模型实现了从资源密集型到高效工具的转变。采用8位和4位量化后,内存占用减少71%,推理速度提升39%。量化在保持功能的同时显著提高了效率。

量化的力量:压缩GPT-2,释放速度

DEV Community
DEV Community · 2025-01-26T17:24:37Z

picoGPT是一个简洁的GPT-2实现,旨在帮助学习者理解GPT的工作原理。它展示了文本生成的核心机制和模型推理过程,用户可以通过运行picoGPT逐步深入理解其架构和关键组件,但不包括训练部分。核心思想包括自回归生成和Transformer架构。

60 行 NumPy 代码带你学习GPT - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2025-01-10T02:45:00Z

本研究提出了一种新颖的脑信号解码技术,通过预测DINOv2模型的图像嵌入,将fMRI信号解码为图像字幕,并作为GPT-2语言模型的前缀,从而显著降低计算需求。同时,采用三维卷积神经网络更好地考虑体素位置信息,提升大脑解码的精度和效率。

Decoding fMRI Data into Captions using Prefix Language Modeling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-05T00:00:00Z
从2019年到现在,是时候重新审视Tokenization了

2019年发布的GPT-2采用BPE算法进行tokenization,但效果有限。HuggingFace的研究表明,tokenization对模型的算术能力有显著影响,单位数tokenization在处理数字和复杂算术问题上表现优于其他方法,而右到左的tokenization也显示出优势。

从2019年到现在,是时候重新审视Tokenization了

机器之心
机器之心 · 2025-01-04T09:44:45Z

本研究探讨了变压器中注意力机制的渐近特性,证明了所有令牌在渐进过程中相互趋同,并验证了理论结果与GPT-2模型实验的一致性。

Asymptotic Behavior of Attention in Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z

本研究探讨数据窥探对神经网络代码漏洞检测的影响,结果显示其对模型性能影响有限,且GPT-2嵌入模型在复杂代码特征表示方面表现出良好的鲁棒性。

数据窥探对深度学习模型在提升代码漏洞定位中的影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞

Keller Jordan的新项目「Modded-NanoGPT」利用FlexAttention技术,将GPT-2模型的训练时间从45分钟缩短至5分钟,显著提高了训练效率。该项目优化了模型架构和优化器,适用于大规模语言建模。

神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞

机器之心
机器之心 · 2024-11-21T05:11:20Z

该研究探讨了大型语言模型(如GPT-2和GPT-3.5)中的性别偏见,分析了生成文本中的性别化词汇和偏见叙述。研究发现这些模型在职业选择和回答问题时存在性别刻板印象,并提出了减少偏见的算法和框架,强调了文化对性别偏见的影响,建议加强对模型的公平性测试。

大型语言模型生成的面试回答中的性别偏见

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

研究深入分析了Adam优化算法在训练语言模型时比SGD更有优势,主要因为其有效利用了$ _ ext{infty}$几何。新的收敛分析显示,在特定条件下,Adam的表现显著提升,尤其在GPT-2和ResNet模型中得到了验证。

Adam Utilizes the $ ext{l}_ ext{infty}$ Geometry of Loss Landscapes through Coordinate Adaptivity

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本文探讨了使用OpenAI GPT-2和GPT-4模型进行专利描述生成的微调方法,分析了专利语言的结构。研究表明,生成式语言模型在专利文本生成中具有显著优势,尤其是通过知识微调框架提升了技术准确性。实验结果显示,PatentGPT在专利撰写中表现优异,推动了知识产权领域的发展。

Pap2Pat:基于分块的轮廓引导生成的自动化论文到专利草拟

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-09T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码