小红花·文摘

蚂蚁集团发布了开源的万亿参数思考模型Ring-1T，具备接近GPT-5的能力，数学推理达到IMO银牌水平。该模型通过自研算法解决训练与推理精度差异，在医疗问答和人类偏好对齐测试中表现优异。Ring-1T是蚂蚁在万亿参数模型上的首次尝试，未来将继续优化。

量子位 ·

本研究提出了一种名为MKG-Rank的多语言检索排名框架，旨在解决大型语言模型在医疗问答中对多语言支持不足的问题。该框架通过单词级翻译机制，结合以英语为中心的医疗知识图谱，显著提升了多语言医疗问答的精确性和效率，测试显示精确度最高可提升33.89%。

BriefGPT - AI 论文速递 ·

本文提出了MedHallu基准，用于检测大语言模型在医疗问答中的幻觉问题。基准包含来自PubMedQA的10,000对问答，研究表明现有模型在幻觉检测上存在不足，引入领域知识和“无确定答案”选项可显著提高检测精度。

BriefGPT - AI 论文速递 ·

本研究提出了一种全面的评价框架，分析了医疗问答中检索增强生成（RAG）方法的不足，特别是在处理噪声和错误信息方面的局限性，并为未来RAG系统的开发提供了重要见解。

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）在生物医学领域的应用，包括知识图谱问答、基因组学问题解决和流行病学数据访问。研究表明，LLMs在文献生成和假设生成方面取得了显著进展，但也面临信息准确性和隐私等挑战。BioMistral模型在医疗问答任务中表现优异，标志着多语言评估的首次实现。

BriefGPT - AI 论文速递 ·

本研究通过微调大型语言模型（如LLaMA-2和Mistral），结合rsDoRA+和ReRAG技术，改进医疗问答服务，提高了医疗信息的准确性和可获得性，增强了医疗服务质量和患者信任。

BriefGPT - AI 论文速递 ·

本文提出了HALO框架，旨在解决大型语言模型在医疗问答中产生幻觉的问题。通过生成多种查询变体并从外部知识库检索信息，HALO显著提高了模型的准确性和可靠性，优化了临床决策和患者护理。

BriefGPT - AI 论文速递 ·

大型语言模型（LLMs）在医学领域的应用受到关注。研究评估了六种LLMs在医学知识回忆中的表现，并探讨了它们在医疗问答中的可靠性和有效性。引入自问自答提示策略后，模型在医疗任务中的性能有所提升。尽管LLMs展现出卓越能力，但在临床实践中的整合仍需优化和伦理监管，以应对模型幻觉等挑战。

BriefGPT - AI 论文速递 ·