小红花·文摘

推理模型只是大型语言模型

<antirez> ·

本研究提出了DeepSeek-R1及其无监督预训练版本DeepSeek-R1-Zero，旨在提升大型语言模型的推理能力。通过多阶段训练，DeepSeek-R1在推理任务上表现优异，解决了可读性和语言混合等问题。

DeepSeek-R1: Incentivizing Reasoning Capability in Large Language Models via Reinforcement Learning

BriefGPT - AI 论文速递 ·

🧠生成式AI - 3

DEV Community ·

本研究比较了半监督学习中的预训练和自训练方法，发现预训练与微调组合效果最佳，自训练与半监督预训练结合未提供额外收益。其他研究探索了自监督正则化、贝叶斯深度学习、对比学习等方法在半监督学习中的应用，取得了显著提升。建议未来关注无监督预训练目标的半监督学习研究。

预训练与自训练的比较研究

BriefGPT - AI 论文速递 ·

通过shelf-supervision模型对RGB和LiDAR数据进行无监督预训练，提出了一种能够生成零样本3D边界框的点云表示方法，适用于半监督检测和LiDAR-only和多模态检测。在nuScenes和WOD上展示了方法的有效性，并改进了之前的工作。

OC3D：只需粗略点击标注的弱监督户外3D目标检测

BriefGPT - AI 论文速递 ·

本文介绍了一种基于神经网络和BERT模型的用户嵌入系统Author2Vec，通过使用BERT模型的句子嵌入技术和作者分类的无监督预训练目标，生成更好的用户嵌入表示。在Reddit平台的1万个用户文章数据上进行预训练，并在抑郁症和人格分类等用户分类基准上进行了分析和评估，结果表明其性能优于传统方法。Author2Vec成功地编码了有用的用户属性，并在下游分类任务中表现出良好的性能。

VecAug: 用于增强检测的同伴增强揭示伪装欺诈行为

BriefGPT - AI 论文速递 ·

该论文介绍了一种名为G-GNNs的新型模型，通过无监督预训练获取节点的全局结构和属性特征，并在平面图和属性图上进行了实验，表现优异。

揭示图间的全球交互模式：走向可解释图神经网络

BriefGPT - AI 论文速递 ·

通过无监督预训练实现视觉和语言模型的学习，使用“mask-and-predict”方法预训练文本和图像数据，并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁。在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能，挑战了对于V&L预训练来说，对齐数据是必要的广泛看法，并显著减少了V&L模型的监督所需量。

通过潜在压缩学习在交替图像文本数据上进行视觉模型预训练

BriefGPT - AI 论文速递 ·

本文介绍了GPT模型的底层原理和架构，以及在无监督预训练和有监督下游任务微调方面的应用。同时，还介绍了基于HuggingFace的预训练语言模型实践，包括数据集准备、训练词元分析器、预处理语料集合和模型训练等步骤。最后，给出了模型使用的示例。

语言模型：GPT与HuggingFace的应用

华为云官方博客 ·

该文介绍了一种使用Barlow Twins训练自监督编码器的技术，可以从未标记的数据中学习，减少注释样本的数量，并在语义场景分割任务中应用。实验结果表明，无监督预训练可以提高性能，特别是对于少数类别。

基于地势信息的自主学习：利用有限注释增强 LiDAR 数据中的建筑物提取

BriefGPT - AI 论文速递 ·

该文介绍了一种新型无监督整体预训练方法ProSeCo，利用基于Transformer的物体检测器生成的大量目标提案进行对比学习，从而允许使用较小的批量大小，并结合物体级特征学习图像中的局部信息。该方法在使用较少数据进行物体检测的无监督预训练中优于现有方法，在标准和新颖的基准测试中表现出色。

少量数据目标检测的对比预训练建议

BriefGPT - AI 论文速递 ·

该文介绍了一种基于掩蔽自动编码器的无监督预训练技术，用于心电图心律失常分类任务。该方法在未标记数据的任务特定微调中表现出更好的性能，相较于全监督方法，在MITDB数据集上取得了94.39%的准确率。

使用掩蔽型自编码器进行心电图分析的无监督预训练

BriefGPT - AI 论文速递 ·

研究人员通过Barlow Twins训练自监督编码器进行预训练，提出了一种从未标记的数据中学习的技术，以减少注释样本数量，并在语义场景分割任务中应用。实验结果表明，无监督预训练在有监督任务上进行微调后，能够显著提高性能，尤其是对于少数类别。

自监督预训练提升激光雷达数据的语义场景分割

BriefGPT - AI 论文速递 ·

该论文提出了一种名为G-GNNs的新型模型，通过无监督预训练获取节点的全局结构和属性特征，并利用这些特征和原始网络属性提出了一种GNN的并行框架。该模型在平面图和属性图上进行了实验，并在三个标准评估图上表现出色，特别是在属性图学习方面，G-GNNs在Cora（84.31％）和Pubmed（80.95％）上建立了新的基准记录。

搜索以微调预训练的图神经网络用于图级任务

BriefGPT - AI 论文速递 ·

ChatGPT的模型训练

Bright LGM's Blog ·

通过无监督学习提升语言理解能力

OpenAI ·