小红花·文摘

近年来，我通过AI工具提升工作效率，特别是使用GPT-3.5后受益匪浅。随着Claude和DeepSeek等新模型的出现，我逐渐将它们应用于代码生成和文档撰写，体验到AI的强大能力。

我和 AI 的这几年

子舒的博客 ·

本研究探讨了零-shot链式思维提示在日语中的有效性。比较GPT-3.5与GPT-4o-mini后发现，前者在大学数学和抽象代数领域表现提升，但在更先进模型中效果有所下降，为日语处理中的推理能力改进提供了新见解。

零-shot链式思维在日语提示中的有效性

BriefGPT - AI 论文速递 ·

本研究分析了ChatGPT的政治偏见和个性特征，比较了GPT-3.5与GPT-4的表现。结果显示，两者均存在进步主义和自由主义偏见，但GPT-4的偏见有所减弱，且更擅长模仿政治观点。

GPT-4的政治偏见是否比GPT-3.5更少？对ChatGPT政治偏见的再调查

BriefGPT - AI 论文速递 ·

该研究探讨了大型语言模型（如GPT-2和GPT-3.5）中的性别偏见，分析了生成文本中的性别化词汇和偏见叙述。研究发现这些模型在职业选择和回答问题时存在性别刻板印象，并提出了减少偏见的算法和框架，强调了文化对性别偏见的影响，建议加强对模型的公平性测试。

大型语言模型生成的面试回答中的性别偏见

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在医学问答中的应用，特别是GPT-3.5和Med-PaLM 2的表现。研究表明，这些模型在医学考试和阅读理解中达到了人类水平，能够生成高质量的医学解释，提升回答能力。此外，多语言模型在某些情况下优于单语模型，研究呼吁开发新的评估标准以支持可解释的医疗问答研究。

医学问答数据集CasiMedicos-Arg的解释性论证结构注释

BriefGPT - AI 论文速递 ·

研究显示AI编程助手提高开发者生产力

InfoQ ·

OpenAI发布了GPT-4o mini，取代了GPT-3.5，价格更便宜且在多种场景下表现出低成本和低延迟的特点。GPT-4o mini在多项测试中超过了竞争对手的小模型，并与其他公司合作将其用于实际应用。此外，OpenAI还推出了GPT-4o实时语音模式。

OpenAI突发新模型，GPT-3.5退役，大模型成本2年骤降99%

量子位 ·

本文探讨了大语言模型（如LSTM和Transformer）在序列概率评估中的低估现象，尤其是在低概率序列中更为明显。研究发现，模型对不规范序列的概率高估导致了这种差距。对GPT-3.5和GPT-4的评估显示，输出概率影响模型准确性，尤其在低概率情况下表现不佳。因此，建议在使用大语言模型时需谨慎，并将其视为独特系统。

计算词语的概率

BriefGPT - AI 论文速递 ·

机器翻译在质量上不断进步，但性别偏见问题依然严重。为此，研究者推出了GATE X-E语料库，包含多种语言的翻译及性别变体，并开发了基于GPT-3.5的性别重写解决方案。研究表明，多个翻译系统普遍存在性别偏见，呼吁对机器翻译进行性别去偏见的深入研究。

架起桥梁：用于评估德语性别公平机器翻译的数据集

BriefGPT - AI 论文速递 ·

DuckDuckGo的私人AI聊天默认不使用您的数据进行训练

The Verge ·

本研究探讨了GPT-3.5和GPT-4模型在教育中的应用，特别是在自动评分和个性化反馈方面。研究表明，GPT-3.5在评分准确性上优于BERT模型，并能生成高质量反馈。GPT-4在教师与学生的对话中表现出色，但在识别真诚赞扬方面存在不足。未来研究将集中于提升提示工程和评估模型的教学能力。

如何提高？使用 GPT 凸显开放式回答中的期望和不期望的部分

BriefGPT - AI 论文速递 ·

本研究探讨了多语言模型在数字推理中的能力，发现FlanT5和GPT-3.5在此方面表现优异。研究提出了一种新方法，通过锚定数字来提升语言模型的数字推理能力，实验结果显示显著改善。

探索语言模型中的内部数理能力：ALBERT 的研究案例

BriefGPT - AI 论文速递 ·

GPT-4 API的普遍可用性及旧版模型在Completions API中的停用

OpenAI ·

问答：在 RAG 应用中，GPT-3.5 足够就足够了吗？

宝玉的分享 ·

本研究探讨了大型语言模型（LLMs）在逻辑推理和谬误识别方面的能力，发现GPT-3.5和GPT-4在面对逻辑谬误时容易被说服。通过构建新的数据集（LFUD）评估LLMs的逻辑谬误理解能力，结果显示其在复杂推理任务中仍存在不足。研究提出了多种提升LLMs逻辑推理能力的策略，并强调了公平性在LLMs应用中的重要性。

评估一个 LLM 在逻辑谬误识别中的效能：在采用 LLMs 进行人机交互研究时呼吁严谨

BriefGPT - AI 论文速递 ·

OpenAI宣布用户无需注册登录OpenAI账号即可使用ChatGPT，但只能使用GPT-3.5。Google Chrome团队提出了针对cookie劫持问题的DBSC标准。雅虎收购了资讯app Artifact，主要是为了获取其在内容分类和推荐系统上的技术。iOS 18的设备兼容性与iOS 17保持一致，但iPadOS 18不再支持某些iPad型号。