机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。
飞桨PP-UIE是一个支持中英文的信息抽取大模型,具备强大的零样本和小样本学习能力,能够高效处理长文本,适用于多种应用场景。
本文介绍了一种新型文本摘要模型,结合抽取与生成方法,通过分层编码器和注意力机制显著提升摘要质量。研究表明,该模型在多个数据集上表现优异,能够生成信息丰富且可读性强的摘要。
人工智能在法律行业的影响日益明显,尤其是在图像识别和文本生成方面。大型语言模型(LLMs)在法律文本理解和案例分析中展现出潜力,但仍面临数据和算法的局限性。研究表明,LLMs在法律判决预测中表现良好,但需要针对法律领域进行更深入的微调和优化。未来的发展方向包括解决偏见和可解释性等问题。
本文介绍了关系抽取(RE)领域的最新研究进展,包括AutoRE模型和RHF提取范式的引入,结合QLoRA算法构建DocRE框架,提升了在RE-DocRED数据集上的性能。此外,研究探讨了低资源情况下的关系抽取方法、对话关系提取的挑战及大型语言模型的应用,提出了新的MixRE任务和DocGNRE数据集,展示了增强数据集的有效性。
本文针对零样本情况下中文开源大型语言模型在信息抽取任务中的性能进行了综合调查和分析,同时通过少样本实验评估了这些模型的能力,并与 ChatGPT 等广泛认可的语言模型在信息抽取性能上进行了比较分析,旨在提供对现有中文开源大型语言模型在自然语言处理中信息抽取领域的优势、限制和潜在增强的洞察。
该研究探讨了大型语言模型(LLMs)在条件问答(CQA)中的能力与局限性,评估了不同模型在问答任务中的表现。经过微调的LLMs在某些情况下优于现有技术,但在抽取性问答中仍面临挑战。研究提出了新的评估框架,以提高模型评估的全面性和准确性。
本文介绍了多种事件提取框架,如EventGraph和JMEE,利用大型语言模型和图神经网络提升事件提取性能。这些方法在ACE和ERE数据集上表现优异,尤其在处理嵌套事件和复杂关系方面具有显著优势。
本文介绍了抽取式文本摘要的概念和利用BERT等NLP模型增强它的方法。抽取式摘要通过提取关键句子来快速理解大量文档,具有广泛应用。使用LLMs进行抽取式摘要的过程包括文本解析、特征提取、句子评分和选择汇总。文章还讨论了使用BERT模型进行抽取式摘要的挑战。抽取式摘要是信息泛滥时代的实用工具,随着自然语言处理的发展,它将变得更加重要。
本论文提出了一种新的方法,通过提取特定的语篇关系信息从原始文本中提取带有银标签的数据,以微调用于态度分类的模型并提出了一个3阶段的训练框架,实现了从最嘈杂的数据到最少噪音的数据不断降噪。实验结果表明,自动注释的数据集以及3阶段训练有助于改善模型在态度分类中的性能,该方法在NLPCC 2021观点分类赛道中排名第一,验证了我们方法的有效性。
该研究提出了一种基于孪生网络的无监督抽取式摘要模型,通过双向预测目标进行训练。该模型可以进行端到端训练,并引入了可微分的长度控制模块。实验证明,该模型在句子编码器相同的情况下,优于基准方法,并在长度控制能力方面表现出色。人工评估结果也证明了该模型在相关性和一致性方面的优势。
该论文介绍了一种解决低资源场景下关系抽取的方法,通过自监督学习和对比学习进行预训练和微调。实验证明该方法在使用1%数据时,性能提高了10.5%和5.8%。
PP-ChatOCRv2是一个融合了文心一言和PP-OCRv4的文档图像信息抽取神器,覆盖20+高频应用场景,支持5种文本图像智能分析能力和部署。它具有场景丰富、精准度高、一键部署和便捷开发等特点。PP-ChatOCRv2的技术流程包括OCR系统和文心大模型的串联,可以实现80%+的平均准确率。部署简单,提供SDK部署包,支持Linux操作系统和NVIDIA GPU和X86 CPU推理。还提供便捷的二次开发功能,支持自定义Prompt优化和OCR模型微调。PP-ChatOCRv2旨在提高效率。
研究使用不同语言模型评估生成的摘要,发现text-davinci-003模型最佳。分析CNN Daily Mail和XSum数据集,为NLP研究人员提供有价值的见解。
本文介绍了一种新的信息提取框架,通过构建跨度图和迭代细化来提高实体识别和关系抽取的准确性,该框架在多个领域和数据集上超越了现有技术水平。
该文提出了一个半监督框架,通过三个新组件优化文档级关系抽取任务。实验证明该模型在两个 DocRE 数据集上表现超过了强基线模型,F1 分数和 Ign_F1 分数分别增加了 1.36 和 1.46 分。
数链科技基于飞桨研发的PP-ChatOCR解决方案,实现了多页PDF合同扫描件的关键信息抽取,准确率超过98%。该技术已经赋能数链科技的核心客户,辅助风控提效80%,节省人力5人。
在自然语言处理和知识图谱中,实体抽取、NER是一个基本任务,也是产业化应用NLP 和知识图谱的关键技术之一。
完成下面两步后,将自动完成登录并继续当前操作。