西湖大学推出AiraXiv和DeepReview,前者为AI生成论文提供开放平台,后者模拟人类审稿,快速评估论文质量,提升学术交流效率,减轻传统审稿负担。
许多学者因审稿耗时而拒绝邀请,影响科学进步。研究者提出三步高效审稿法:快速浏览、口述记录和内容优化,结合离线大型语言模型(LLM)以提高效率,节省时间,确保反馈质量,维护审稿生态。
CVPR 2025 论文接收结果公布,共收到13008篇投稿,接收2878篇,接收率为22.1%,创历史新低。部分审稿人被指责使用大语言模型生成低质量评审,导致19篇论文被拒。CVPR会议的谷歌学术排名已升至第二,仅次于《Nature》。
本研究旨在填补大型语言模型(LLMs)在自动学术论文审稿(ASPR)中的应用及其相关技术瓶颈的空白。文章提出了ASPR的概念,并概述了LLMs在ASPR实践中的潜在转型能力以及面临的挑战。研究强调了LLMs在提升学术审稿效率方面的重要性,并为学术界和出版界的态度提供了洞见。
大语言模型(LLMs)在学术同行评审中逐渐应用,但可能引发操控、偏见和幻觉等风险。研究表明,作者可能通过隐性或显性方式影响审稿意见,损害评审公正性。专家建议暂停LLMs作为审稿工具,并引入检测工具和问责机制,以维护学术评审的公平性和严谨性。
作者分享了作为NeurIPS 2024区域主席的经历,面临诸多挑战。尽管有丰富的审稿人经验,但区域主席的工作更为复杂,包括论文分配、审稿人管理和撰写元评审。在时间紧迫的情况下,作者努力确保每篇论文得到高质量的评审,最终成功完成了所有论文的审查过程。
本研究提出了OpenReviewer系统,利用Llama-OpenReviewer-8B模型生成高质量的机器学习和AI会议论文审稿。该系统基于79,000篇专家评论训练,生成的评论在批判性和真实性上显著优于通用模型。
作者决定不再锁车,观察是否会被偷,若被偷则购入公路车。他回忆起2012年观看《偷自行车的人》的感受,计划再次观看。尽管书写已完成,但仍需处理评论和审稿建议,心情复杂。
本文介绍了康奈尔大学的论文审稿模型Reviewer2的原理和实现,通过PGE方法从人工review中生成预设问题数据,并训练模型根据不同paper提出不同预设问题。同时介绍了Reviewer2的数据集来源和评估方法,以及同行评审数据集PeerRead的两个工作及对审稿GPT的启发。
审稿是学术界的重要任务,包括初步审查和找合适的审稿人。作为审稿人,需要评估方法、数据和结果的质量和准确性,确定结论的重要性,并判断论文是否适合期刊。审稿意见应包括对作者的评论、对编辑的意见和建议。审稿应简洁、精确、建设性,并在一个月内完成。
本文记录了作者在微调LLaMA2 70B模型过程中遇到的报错信息及解决方法,包括GPU占用和数据截断等问题。作者成功微调了5K条数据,并进行了推理,结果超过了GPT4-1106模型。作者计划使用更大的15K数据集进行微调。
谷歌发布了开源模型Gemma 7B,旨在与Llama和Mistral竞争聊天机器人领域。Gemma 7B在各种基于文本的任务中表现出色,并在大多数任务中超过了Llama和Mistral。模型架构基于Transformer解码器,具有多查询注意力、RoPE嵌入和GeGLU激活等改进。Gemma 2B和7B使用英文数据进行训练,并使用监督学习和强化学习技术进行微调。谷歌在监督微调中使用了混合数据,并为强化学习训练了奖励模型。
GPT-NeoX是一款基于Deepspeed库的GPU上的类似于GPT-3的模型并行模型,采用多卡和多节点训练的方式,实现了更高效的模型训练。它具有强大的泛化能力,采用了新的优化技术,提高了训练效率和性能。GPT-NeoX的Transformer结构适用于各种NLP任务,并提供了Unsupervised Pretraining功能,可以在没有标注数据的情况下进行预训练。
这篇文章介绍了使用视觉分类器辅助审稿的方法。作者构建了一个系统,通过浏览论文的视觉效果来预测论文是否应该被接受或拒绝。作者训练了一个分类器来判断论文的质量,并使用了计算机视觉技术计算论文的视觉特征。作者还使用了AdaBoost作为分类器,并分析了其理论特性。作者发现,被接受的论文通常包含数学公式、图表和图像,而被拒绝的论文通常包含令人困惑的大表格和缺少五颜六色的图片。作者的模型分析一篇论文只需要0.5秒。
完成下面两步后,将自动完成登录并继续当前操作。