小红花·文摘

代理评估准备检查清单

LangChain Blog ·

本研究提出DriveThru平台，旨在解决印尼地方语言在自然语言处理中的代表性不足。该平台通过光学字符识别技术数字化印刷文档，降低人工成本，提升数据集构建能力，显著提高字符和词汇的准确率，具有广泛的应用潜力。

DriveThru: A Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives

BriefGPT - AI 论文速递 ·

整数智能是一家提供数据标注和数据集构建服务的公司，最近完成了数千万A轮融资。他们的4D标注工具可以重建全局地图并追踪运动中的物体。

模拟物理世界，从4D标注开始｜对话整数智能

量子位 ·

本研究介绍了UnSeenTimeQA，一个新的时间敏感问答基准，旨在评估大型语言模型在真实时间推理中的能力。研究发现，现有模型在复杂时间推理场景中表现不佳，并提出了新的时间上下文感知问答框架TCQA，显著提升了模型性能。此外，研究探讨了如何构建时间敏感问答数据集，以增强长文档QA系统的时间推理能力。

连续学习的时间敏感问答

BriefGPT - AI 论文速递 ·

本文研究犬叫声的交流模式，采用自监督学习方法HuBERT，成功识别犬叫声中的基本词汇。分析表明Shiba Inu犬叫声的声学特征与主人语言环境相关，并提出了用于低资源语言的定制数据集构建方法，推动了语音生成技术的发展。

走向狗吠解码：利用人类语音处理进行自动狗吠分类

BriefGPT - AI 论文速递 ·

该研究总结了指令调优在增强和控制大型语言模型能力方面的关键技术，包括IT方法论、数据集构建、模型训练和应用。研究还分析了影响结果的因素，并审查了潜在问题和批评。提出了有益的研究方向。

SelectIT: 基于不确定性感知的选择性指导调整大型语言模型的方法

BriefGPT - AI 论文速递 ·

大型语言模型的指令调优中的零 - shot 跨语言转移

BriefGPT - AI 论文速递 ·

该研究概述了指令调优领域的研究，重点是增强和控制大型语言模型的能力。研究回顾了方法论、数据集构建、模型训练以及应用等方面，并分析了影响结果的因素。同时审查了潜在问题和批评，并提出了一些研究方向。

仅需一点多语言知识的多语言教学优化

BriefGPT - AI 论文速递 ·

该文回顾了指令调优（IT）领域的研究，探讨了增强和可控大型语言模型（LLMs）能力的方法论、数据集构建、模型训练和应用。同时，分析了影响IT结果的因素和存在的潜在问题，并提出了有益的研究方向。

CITB：一个连续指令调整的基准

BriefGPT - AI 论文速递 ·

本文介绍了数据集的构建和预处理过程，包括中英文语料的来源、数据分词、文本切分、数据预处理工具、数据集的剔除和合并等。同时，还介绍了指令微调数据集的构建和训练过程，包括使用 GPT4 进行翻译、信息抽取数据集的构造、KG2Instruction 的介绍等。最后，介绍了基于私有化LLM技术的数据库交互方式DB-GPT的架构和应用。