小红花·文摘

该研究提出了一种新策略，以优化生成文本中的水印设计，检测率优于现有方案，具有实际应用潜力。

Optimized Coupling for Watermarking in Large Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了区分人类生成文本与大型语言模型（LLM）生成文本的挑战，提出了基于LLM的检测和解释方法。结果表明，LLM在检测自身生成文本时表现优于他人生成文本，但仍需改进。将二分类任务扩展为三分类任务显著提高了检测准确性和解释质量。

"I Know Myself, But Not Really Deeply": Using Large Language Models to Detect and Explain LLM-Generated Texts

BriefGPT - AI 论文速递 ·

本研究提出自引用因果循环(RECALL)机制，旨在解决大型语言模型在回忆上下文时的“逆转诅咒”问题。通过引入循环令牌，增强模型的信息重现能力，从而提高生成文本的准确性和连贯性。

Enhancing Language Model Library Behavior through Self-Referential Causal Loops

BriefGPT - AI 论文速递 ·

提升大型语言模型性能的提示工程技术

DEV Community ·

本研究提出MAGNET方法，旨在增强解码器的双向建模能力。通过自监督训练和结合双向与因果注意力，MAGNET提升了生成文本和填补缺失文本的能力。

MAGNET: Enhancing Generative Decoders with Representation Learning and Infilling Capabilities

BriefGPT - AI 论文速递 ·

本研究提出递归扩散概率模型（RDPM），旨在解决扩散概率模型与大语言模型在生成图像和文本方面的差异。RDPM通过递归令牌预测机制增强了扩散过程，展现出优越的性能，尤其在推理速度上具有明显优势。

RDPM: Solving Diffusion Probabilistic Models through Recursive Token Prediction

BriefGPT - AI 论文速递 ·

本文分析了传统评估指标在生成文本质量评估中的不足，特别是在缺乏单一真实值的情况下。研究表明，大型语言模型（如Google Gemini 1）在自动评估方面具有潜力，但与人类评估者的一致性较低，鲁棒性不足，亟需改进。

理解大型语言模型评估在扰动下的鲁棒性

BriefGPT - AI 论文速递 ·

本文探讨了大语言模型（LLM）的快速发展及其本地运行的优势，如隐私保护和无注册限制。作者分享了使用llama.cpp软件的经验，介绍了多种模型的特点与应用。尽管LLM在生成代码和文本方面表现出色，但仍存在准确性和上下文长度的限制。总体而言，LLM在校对、创作和翻译等领域展现了潜力。

译文 | 百舸争流，能者自渡：本地大语言模型（LLM）那些事

少数派 ·

作者使用TensorFlow测试一个小型LLM程序。步骤包括安装TensorFlow和NumPy，创建小数据集，定义LLM类，进行数据标记、输入序列创建、模型构建和训练。模型由嵌入层、LSTM和Dropout层组成，使用交叉熵损失函数和Adam优化器进行训练。最后，通过测试方法生成文本，避免重复单词。

使用TensorFlow在Python中创建用于测试的LLM

DEV Community ·

该研究提出了一种方法，用于估计大语言模型在大型语料库中可能被大量修改或生成的文本比例。研究结果显示，提交给AI会议的同行评议文本中有6.5％到16.9％的文本可能是由LLMs进行了大幅修改。讨论了生成文本出现的情况对用户行为的揭示以及对同行评议的影响。

使用大型语言模型评估研究质量：对ChatGPT在不同设置和输入下有效性的分析

BriefGPT - AI 论文速递 ·

该研究论文探讨了离散领域中扩散模型的应用，将其作为生成算法的辅助方法，并展示了其在生成文本方面的有效性。潜在扩散模型优于自回归基线，并支持可控的生成。

通过结构化偏好生成改进离散扩散模型

BriefGPT - AI 论文速递 ·

本文提出了一种新的评估框架，基于LLMs，通过比较生成文本和参考文本来提供全面的评估。该模型模拟生成文本的客观和主观维度，并引入了上下文提示机制以生成动态角色扮演者配置文件。实验结果表明，该模型具有竞争力且与人类注释者一致。

论文摘要内容单位在文本摘要评估中的作用

BriefGPT - AI 论文速递 ·

该研究提出了一种方法，用于估计大语言模型在大型语料库中可能被修改或生成的文本比例。研究结果显示，提交给会议的同行评议文本中有6.5％到16.9％的文本可能是由大语言模型进行了大幅修改。研究讨论了生成文本的出现对用户行为的揭示以及对同行评议的影响。研究呼吁未来的跨学科工作来研究大语言模型的使用如何改变我们的信息和知识实践。

科学论文中 LLM 的使用增加趋势的映射

BriefGPT - AI 论文速递 ·

本文提出了一种新的评估框架，通过比较生成文本和参考文本来提供全面的评估。实验结果表明，该模型具有竞争力且与人类注释者一致。

iScore: 通过视觉分析解释语言模型自动评分摘要

BriefGPT - AI 论文速递 ·

本文研究了生成文本中使用分类器控制文本生成过程时，生成的文本分布与分类器训练集不一致的问题，并提出了基于不变性学习的解决方案和选择自然环境的启发式策略。实验证明分布转换对生成文本的困难性以及不变性方法在解决问题上的潜力。

学习在任意书写风格中生成文本

BriefGPT - AI 论文速递 ·

本研究调查了文本嵌入泄露私人信息的问题，并通过生成文本的方法解决了该问题。模型能够精确恢复输入的92%。

个性化文本图像生成的交叉初始化

BriefGPT - AI 论文速递 ·

该文提出了一种基于LLMs的新的评估框架，通过比较生成文本和参考文本来提供全面的评估。该模型具有竞争力，且与人类注释者具有非常高的一致性。

提升指令遵循评估能力的研究：以摘要为例的案例研究

BriefGPT - AI 论文速递 ·

该论文提出了一种使用语言模型检测 ChatGPT 生成的文本与人工编写文本的新方法，并设计、实现和训练了两种不同的文本分类模型，精度超过 97％。研究结果为有效使用语言模型检测生成文本提供了重要的见解。

关于基于训练的 ChatGPT 检测方法的泛化性

BriefGPT - AI 论文速递 ·

Petals是一个社区运行的系统，可以协作运行大型语言模型，比Offloading更快。Petals只在服务器之间发送少量数据，而Offloading会将数百GB的NN权重复制到GPU VRAM上。您可以使用任何微调和采样方法，通过模型执行自定义路径，或查看其隐藏状态。Petals可以使用多种生成文本的方法，并根据自己的任务对它们进行微调。

Petals：在家中就能运行P2P大语言模型

极道 ·

该文提出了一种基于LLMs的评估框架，通过比较生成文本和参考文本来提供全面的评估。该模型具有竞争力，且与人类注释者具有非常高的一致性。

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

BriefGPT - AI 论文速递 ·