小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

卡帕西以100美元成本和8000行代码手动构建了简易版ChatGPT,经过12小时训练后性能超越GPT-2。该项目名为nanochat,提供详细教程,旨在简化AI模型训练,促进教育。

卡帕西8000行代码手搓ChatGPT,成本仅100美元,训练12小时CORE表现超越GPT-2,手把手教程来了

量子位
量子位 · 2025-10-14T02:39:29Z

本研究提出了一种新框架,通过结合文本和视觉模态,从视频数据集中生成自然语言描述。该框架利用ResNet50提取视频帧特征,并通过基于GPT-2的模型生成高质量、可解释的描述,具有重要的实际应用价值。

Towards Explainable AI: Multi-Modal Transformer for Video-based Image Description Generation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-23T00:00:00Z

本研究比较了GPT-2和LLaMA-2在心智理论任务中的下一个令牌预测表现。结果表明,LLaMA-2在低温度设置下的预测准确性优于GPT-2,尤其在复杂推理任务中,两者表现差异显著。

Exploring Next Token Prediction in Theory of Mind (ToM) Tasks: Comparative Experiments with GPT-2 and LLaMA-2 AI Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-22T00:00:00Z

本研究提出了ConceptFormer方法,旨在提高大型语言模型中知识图谱的使用效率。该方法通过将知识图谱信息编码为概念向量,显著提升了GPT-2模型的信息回忆能力,展现出广泛的应用潜力。

ConceptFormer: Towards Efficient Use of Knowledge Graph Embeddings in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-10T00:00:00Z

本研究提出了一种结合视觉变换器与GPT-2的多模态模型,旨在提高病理图像分析中的细微病变特征理解。通过微调专门数据集,该方法显著提升了疾病分类、分割和检测的准确性,展示了数字技术在医学图像分析中的应用潜力。

提高病理学中的认知诊断:一种增强组织病理图像感知理解的深度学习方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z
使用对比搜索的GPT-2模型进行文本生成

本文介绍了如何使用GPT-2模型进行文本生成,包括文本生成的核心实现、参数配置、批处理和优化技巧。内容涵盖初始化文本生成器、生成文本的参数设置(如温度、top_k和top_p),以及多个提示的批量生成方法。最后,提供了一些提高生成结果的建议,如明确提示和调整参数。

使用对比搜索的GPT-2模型进行文本生成

MachineLearningMastery.com
MachineLearningMastery.com · 2025-03-01T21:04:14Z
基于GPT-2模型的自动补全风格文本生成

本文介绍了如何使用GPT-2模型构建智能自动补全系统,强调神经网络方法相较于传统统计方法在理解上下文和提供相关建议方面的优势。文章详细讲解了系统架构、基本实现、缓存优化及批量输入处理,突出了实时性能和用户体验的重要性,并提供示例代码以帮助读者快速构建自动补全应用。

基于GPT-2模型的自动补全风格文本生成

MachineLearningMastery.com
MachineLearningMastery.com · 2025-02-24T17:39:41Z

OpenAI宣布将启动新的开源项目,用户可选择开发小型模型或端侧模型。自2019年开源GPT-2以来,OpenAI未再开源新模型,引发广泛讨论。尽管奥特曼认为开源是错误,GPT-4.5和GPT-5在未来几周内可能仍不会开源。

OpenAI突宣开源计划:端侧模型or小模型二选一!奥特曼在线征集投票

量子位
量子位 · 2025-02-18T04:41:17Z
开发者的25+个AI技术资源 - 2025年1月27日

文章介绍了多种AI工具和项目,包括在GPT2中应用的量化技术、个性化认证考试助手CertAI_Buddy以及YouTube赞助识别工具SponsoShield。这些创新旨在提高内容创作效率和用户体验。

开发者的25+个AI技术资源 - 2025年1月27日

DEV Community
DEV Community · 2025-01-26T19:11:42Z
量化的力量:压缩GPT-2,释放速度

通过量化技术,GPT-2模型实现了从资源密集型到高效工具的转变。采用8位和4位量化后,内存占用减少71%,推理速度提升39%。量化在保持功能的同时显著提高了效率。

量化的力量:压缩GPT-2,释放速度

DEV Community
DEV Community · 2025-01-26T17:24:37Z

picoGPT是一个简洁的GPT-2实现,旨在帮助学习者理解GPT的工作原理。它展示了文本生成的核心机制和模型推理过程,用户可以通过运行picoGPT逐步深入理解其架构和关键组件,但不包括训练部分。核心思想包括自回归生成和Transformer架构。

60 行 NumPy 代码带你学习GPT - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2025-01-10T02:45:00Z

本研究提出了一种新颖的脑信号解码技术,通过预测DINOv2模型的图像嵌入,将fMRI信号解码为图像字幕,并作为GPT-2语言模型的前缀,从而显著降低计算需求。同时,采用三维卷积神经网络更好地考虑体素位置信息,提升大脑解码的精度和效率。

Decoding fMRI Data into Captions using Prefix Language Modeling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-05T00:00:00Z
从2019年到现在,是时候重新审视Tokenization了

2019年发布的GPT-2采用BPE算法进行tokenization,但效果有限。HuggingFace的研究表明,tokenization对模型的算术能力有显著影响,单位数tokenization在处理数字和复杂算术问题上表现优于其他方法,而右到左的tokenization也显示出优势。

从2019年到现在,是时候重新审视Tokenization了

机器之心
机器之心 · 2025-01-04T09:44:45Z

本研究探讨了变压器中注意力机制的渐近特性,证明了所有令牌在渐进过程中相互趋同,并验证了理论结果与GPT-2模型实验的一致性。

Asymptotic Behavior of Attention in Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z

本研究探讨数据窥探对神经网络代码漏洞检测的影响,结果显示其对模型性能影响有限,且GPT-2嵌入模型在复杂代码特征表示方面表现出良好的鲁棒性。

数据窥探对深度学习模型在提升代码漏洞定位中的影响

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-03T00:00:00Z
神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞

Keller Jordan的新项目「Modded-NanoGPT」利用FlexAttention技术,将GPT-2模型的训练时间从45分钟缩短至5分钟,显著提高了训练效率。该项目优化了模型架构和优化器,适用于大规模语言建模。

神级项目训练GPT-2仅需5分钟,Andrej Karpathy都点赞

机器之心
机器之心 · 2024-11-21T05:11:20Z

现代自回归语言模型在自然语言处理上表现出色,但存在一些局限性。本文评估了得分熵离散扩散(SEDD)方法,发现其是自回归生成的有效替代方案,尽管在短提示生成上略逊于GPT-2,但在推理延迟方面更为高效。

基于PLM的离散扩散语言模型与熵自适应Gibbs采样

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-10T00:00:00Z

为提升用户满意度,推荐系统需提供解释。我们开发了一种模型,利用用户和项目ID向量作为GPT-2的提示,通过联合训练优化推荐与解释任务。实验结果显示,该方法在Yelp、TripAdvisor和Amazon数据集上表现优异,确保文本质量稳定。

ReasoningRec: 通过大型语言模型推理架构连接个性化推荐与人类可解释的解释

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本文介绍了一种基于GPT-2的开放域对话模型,通过学习上下文与回复的隐式模式来提升回复质量。提出了改进的抽样方法和回复感知机制,使回复更具多样性和人类特征。实验结果表明,该模型在评估中优于基线模型。

多轮对话生成的静态与动态注意力框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

神经网络模型性能高但难以解释。文章提出电路探测技术,通过分析中间变量的低层电路,实现参数切割和因果分析。在简单算术任务中,该方法有效解密模型算法,揭示内部结构,追踪电路发展。应用于GPT2模型,发现负责主谓一致和反身指代的电路。

大语言模型中的电路假设检验

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码