近年来,我通过AI工具提升工作效率,特别是使用GPT-3.5后受益匪浅。随着Claude和DeepSeek等新模型的出现,我逐渐将它们应用于代码生成和文档撰写,体验到AI的强大能力。
本研究探讨了零-shot链式思维提示在日语中的有效性。比较GPT-3.5与GPT-4o-mini后发现,前者在大学数学和抽象代数领域表现提升,但在更先进模型中效果有所下降,为日语处理中的推理能力改进提供了新见解。
本研究分析了ChatGPT的政治偏见和个性特征,比较了GPT-3.5与GPT-4的表现。结果显示,两者均存在进步主义和自由主义偏见,但GPT-4的偏见有所减弱,且更擅长模仿政治观点。
该研究探讨了大型语言模型(如GPT-2和GPT-3.5)中的性别偏见,分析了生成文本中的性别化词汇和偏见叙述。研究发现这些模型在职业选择和回答问题时存在性别刻板印象,并提出了减少偏见的算法和框架,强调了文化对性别偏见的影响,建议加强对模型的公平性测试。
本文探讨了大型语言模型(LLMs)在医学问答中的应用,特别是GPT-3.5和Med-PaLM 2的表现。研究表明,这些模型在医学考试和阅读理解中达到了人类水平,能够生成高质量的医学解释,提升回答能力。此外,多语言模型在某些情况下优于单语模型,研究呼吁开发新的评估标准以支持可解释的医疗问答研究。
微软、麻省理工、普林斯顿大学和沃顿商学院的研究表明,使用GitHub Copilot能提高开发者生产力26%。特别是经验较少的开发者受益更多。实验在2022至2023年进行,使用的是基于GPT-3.5的Copilot版本。
本研究评估了GPT-3.5、LLaMA-2 70B和Mixtral 8x7B在分级文本生成任务中的能力。结果显示少量样本提示提高了可读性操作和信息保留的性能。LLaMA-2 70B在实现所需难度范围方面表现更好,而GPT-3.5保持了原始意义。然而,手动检查发现了一些问题,需要进一步研究以确保生成的教育内容的质量。
本研究评估了GPT-3.5、GPT-4、Falcon和LLaMA 2等大型语言模型在识别患有轻度认知障碍的患者方面的能力,并强调了对GPT-4中意外推理-响应不一致性的进一步探索的需求。研究结果突显了大型语言模型在医疗诊断中的潜力,但需要确保准确性和连贯性以提高可信度。
OpenAI发布了GPT-4o mini,取代了GPT-3.5,价格更便宜且在多种场景下表现出低成本和低延迟的特点。GPT-4o mini在多项测试中超过了竞争对手的小模型,并与其他公司合作将其用于实际应用。此外,OpenAI还推出了GPT-4o实时语音模式。
本文介绍了TinyStories数据集和一种新的评估语言模型的方法,该数据集使用GPT-3.5和GPT-4生成,只包含3到4岁儿童理解的单词。使用TinyStories可以训练和评估小型语言模型,并引入新的评估范式来评估语言能力和得分,有助于低资源或专业领域的语言模型的发展和研究。
本研究评估了GPT-3.5、LLaMA-2 70B和Mixtral 8x7B在分级文本生成任务中的表现。结果显示少量样本提示可以提高可读性操作和信息保留的性能。LLaMA-2 70B在实现所需难度范围方面表现更好,而GPT-3.5保持了原始意义。然而,手动检查发现了一些问题,如引入错误信息和不一致的编辑分布。这些发现强调了进一步研究以确保生成的教育内容质量的需求。
TeleQnA是一个用于评估大型语言模型在电信领域知识的数据集。研究结果显示,GPT-3.5和GPT-4在处理复杂的标准相关问题方面存在困难,但在解答一般的电信相关问题时表现出了出色的能力。LLMs可以与活跃专业人士的表现相媲美,这归功于它们处理大量信息的能力。
本研究使用GPT-3.5、GPT-4和GPT-4o模型,结合RAG和EAU最新指南,创建和评估了UroBot,一种泌尿科聊天机器人。UroBot-4o在EBU的政策评估中表现优秀,具有良好的一致性和准确性。展示了其在临床整合中的潜力,并提供了进一步开发UroBot的必要代码和说明。
本研究评估了GPT-4和GPT-3.5在纵向情感分析任务上的性能。微调的GPT-3.5在术语提取和极性分类任务上获得了83.8的最优F1分数,比InstructABSA提高了5.7%。模型参数增加了1000倍,推理成本也增加了。研究结果表明,在零痕迹和少痕迹环境中,详细提示可以提高性能,但对于微调模型来说并非必要。这对于在ABSA中使用LLMs时的提示工程和微调选择具有相关性。
ChatGPT API已停用,现称为GPT-3.5 Turbo API。所有付费用户可使用GPT-4。OpenAI API已推出,建议用户转向Chat Completions API。
GPT-3.5适用于使用RAG方法构建本地知识库的大多数场景,但GPT-4增强了其能力,在问题提取、排序和摘要等任务中提供更好的结果。GPT-4的更大知识库还允许提供更全面的回答。因此,虽然GPT-3.5可以处理RAG,但GPT-4表现更好,而不仅仅是过度的投入。
研究开发了LTNER框架,结合了上下文化实体标记生成方法,利用GPT-3.5和上下文学习提高了LLMs在NER任务中的准确性。在CoNLL03数据集上的F1得分从85.9%增加到91.9%,接近监督微调的性能。
OpenAI宣布用户无需注册登录OpenAI账号即可使用ChatGPT,但只能使用GPT-3.5。Google Chrome团队提出了针对cookie劫持问题的DBSC标准。雅虎收购了资讯app Artifact,主要是为了获取其在内容分类和推荐系统上的技术。iOS 18的设备兼容性与iOS 17保持一致,但iPadOS 18不再支持某些iPad型号。
ChatGPT最近更新,无需注册账号,即开即用直接使用GPT-3.5。网页版ChatGPT已不需要注册,可立即开始提问。GPT-4仍需注册和付费使用。
斯坦福大学教授吴恩达表示,基于GPT-3.5构建的智能体作业流在实际应用中表现优于GPT-4。智能体作业流包括反思、东西运用、规划和多智能体协作四种形式。反思形式通过多次提示LLM来逐步提升输出质量。智能体作业流将推动人工智能的巨大进步。
完成下面两步后,将自动完成登录并继续当前操作。