PDFMathTranslate是一款开源桌面应用,专为翻译数学和科学文献而设计。它能够智能识别数学公式,准确翻译PDF文本,并保持原有布局,避免格式错误。该应用支持多种翻译服务,适合研究人员、学生和翻译工作者使用。
本研究开发了多语言科学文献相似度测量模型,并推出了包含103种语言的OpenMSD数据集,以帮助研究人员高效查找相关论文。通过预训练科学语言模型和生成英语摘要,提升了非英语论文的表现。此外,研究评估了大型语言模型在生成参考文献和科学知识理解方面的能力,并提出了SciKnowEval评估框架,以优化大型语言模型在科学研究中的应用。
本研究评估了基于抽象自然语言处理的文本摘要方法,比较了GPT-3与GPT-4在科学文献摘要中的表现。结果表明,抽象摘要模型尚未完全发挥潜力,但未来应用前景乐观。
本研究提出了非营利云平台ByteScience,旨在自动提取科学文献中的结构化数据并合成新知识。该平台利用开源DARWIN模型,提高了数据提取的准确性,推动了自然信息学的发展。
本研究评估了大型语言模型在科学文献推理中的表现,发现它们常使用虚构证据。提出了NLP-KG系统以改善文献搜索,并通过混合策略提升模型在科学任务中的理解能力。研究表明,LLM在生成研究创意方面优于人类,强调了系统性调查任务指令的重要性。
Grok大模型现已具备图像理解能力,能够将手写公式转换为LaTeX,推动科学文献数字化。尽管在识图和幽默理解上表现不一,但在公式处理和图像描述方面的准确性令人惊叹。付费用户可体验这些新功能。
本研究提出了CCSBench基准,以解决科学文献摘要中多属性组合控制不足的问题。实验结果表明,现有大型语言模型在平衡控制属性方面存在显著局限,尤其是在隐性属性的深层理解和抽象推理上。
本文探讨了文本摘要评估的多种方法,提出了HowSumm数据集用于多文档摘要任务,并分析了大型语言模型在科学文献摘要中的应用。研究表明,结合提取性和抽象性的方法能有效提升摘要质量,大型语言模型在摘要评估中表现出色,提供了一致的结果。
本文探讨了多种信息提取技术,包括社交网络结构的实体链接、多任务学习框架SciIE、OPIEC语料库、CasRel框架和exBERT模型。这些方法在科学文献分析和知识图谱构建中表现优异,显著提高了抽取准确度和F1值。
本研究提出了一种利用自然语言处理技术对未知类别科学文献进行文本分类的新方法。通过预训练的SciBERT模型,从ArXiv数据集中提取有意义的表示,并使用K-Means算法进行分类。结果表明,该方法在捕捉主题信息方面优于传统标签系统,为科学文献的导航和推荐提供了更好的潜力。
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。该方法在自动指标和人工评价方面优于强无监督基线,并与许多基于监督学习的方法相当。结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
本文提出了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。该方法在 PubMed 和 arXiv 数据集上的结果表明,其在自动指标和人工评价方面优于强无监督基线,并且与许多基于监督学习的方法相当。
该文介绍了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。该方法在PubMed和arXiv数据集上的结果表明,其在自动指标和人工评价方面优于强无监督基线,并且其性能与许多基于监督学习的方法相当。这些结果表明,篇章结构中的模式是确定科学文章重要性的强有力信号。
该文介绍了一种基于无监督的基于图的排名模型,用于提取科学文献的摘要。该方法在PubMed和arXiv数据集上的结果表明,在自动指标和人工评价方面优于强无监督基线,并且其性能与许多基于监督学习的方法相当。
本文探讨了科学文献中AI生成文本与人类编写文本的差距,并提出了通过语法、语义和语用来区分AI文本的框架。研究发现AI生成的科学文本在深度和总体质量方面有待提高,存在事实性问题等差距。研究结果有助于指导AI模型的优化,产生高质量的文本,并解决相关的伦理和安全问题。
材料语言处理 (MLP) 是材料科学研究的关键推动者之一,通过提取结构化信息,加速科学文献的信息提取。基于生成预训练变换器 (GPT) 的流水线工具取代了先前 MLP 模型的复杂架构。发现证实了 GPT-MLP 模型的潜力和实用性,适用于任何材料科学领域。
完成下面两步后,将自动完成登录并继续当前操作。