D4R平台旨在帮助非技术用户,特别是历史学家,探索历史文献。它通过将自然语言问题转化为Cypher查询,提供友好的图形界面,从而提升历史研究的效率和可访问性。
本研究提出了一种基于信息论的方法,用于识别历史文献中的公式性群集,特别适用于多作者文本如希伯来圣经。该算法通过加权自信息分布检测文本结构模式,为文本分析提供量化框架,增强对复杂文本的理解。
本研究提出HERITAGE平台,旨在解决现代人对汉字书写的理解困难,提供开源的Hanja自然语言处理工具,以提高历史文献翻译效率,降低探索门槛。
本研究提出了一种新型多模态语言模型,针对手写文稿数字化中的OCR问题,尤其是不同书写风格。研究结果表明,该方法性能优于现有技术,具有广泛的应用潜力。
本文研究了Transformer架构中OCR敏感神经元对历史文献命名实体识别的影响。通过分析神经元在不同文本中的激活模式,发现中和OCR敏感神经元可以提升历史报纸和经典注释中的NER性能,表明定向神经调制有助于改进噪声文本模型的性能。
19世纪的地籍是历史学家和考古学家的重要来源。研究人员使用卷积神经网络和视觉变换器训练了深度学习模型,提取了大量数据。他们开发了一个基于浏览器的工具,帮助研究人员和公众识别19世纪地点中的建筑物。这个工具有助于理解斯泰里亚地区的定居历史,并帮助公共行政机构和公民确定文化遗产敏感区域。
完成下面两步后,将自动完成登录并继续当前操作。