小红花·文摘

科学家破解老鼠会唱歌奥秘：语言进化可能只是“多接了几根线”

极道 ·

谷歌翻译推出新功能，利用AI实现实时对话翻译和个性化语言学习。用户可在70多种语言中进行自然对话，应用程序智能识别语音和停顿。新的练习功能根据用户水平定制听说练习，提升翻译质量和用户体验。

谷歌翻译推出新款AI驱动的实时翻译和语言学习工具

The Keyword ·

百度推出文心大模型4.5和X1，免费开放，支持多模态，API价格比DeepSeek R1低50%。文心4.5增强语言和逻辑能力，X1则具备更强的理解和工具应用能力。

百度版深度思考模型免费上线！API定价比DeepSeek R1再砍一半

量子位 ·

本研究通过游戏Codenames评估大型语言模型的语言和认知能力，设计实验控制词语选择和对手速度，以揭示LLMs的策略、挑战和局限性。

Evaluating the Emergent Concept Formation of Large Language Models through the Game Codenames

BriefGPT - AI 论文速递 ·

研究探讨大型语言模型在学习新语言时如何保持已掌握语言的性能。提出两阶段微调过程，发现任务相似性影响模型适应性，并验证微调方法在提升语言能力和保持任务性能上的有效性。

Exploring Continual Fine-Tuning to Enhance Language Capabilities of Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过结合语言和数学能力解决非英语任务中的数据不足问题。采用层交换技术的合并模型在数学基准测试中性能提升了10%，展示了跨语言迁移推理的潜力。

Layer Exchange for Zero-Shot Cross-Language Transfer in Large Language Models

BriefGPT - AI 论文速递 ·

DeepSeek 2.5整合了DeepSeek-V2-Chat和DeepSeek-Coder-V2-Instruct的功能，提升语言和编码能力。相比Claude 3.5 Sonnet和GPT 4o，DeepSeek 2.5在性能和价格上有优势，尤其在代码生成和指令执行方面表现出色。支持128K词元上下文，适合多种应用场景，是AI代码生成领域的强劲竞争者。

大模型成本效益对比：DeepSeek 2.5 VS Claude 3.5 Sonnet VS GPT-4o

OneFlow深度学习框架 ·

本文介绍了多种评估工具和基准测试，以应对大型多模态模型（LMMs）在不同任务中的评估挑战。研究涵盖了针对AIOps的OpsEval基准、MixEval评估方法、MMEvalPro和SciEval体系，强调了LLMs在几何数学和医疗领域的表现及改进空间。此外，OMGEval为多语言能力提供评估，促进了LLMs在不同文化背景下的应用。

AgEval: 用多模态 LLMs 进行零样本和少样本植物胁迫表型评估的基准

BriefGPT - AI 论文速递 ·

本文探讨了CLIP模型在视觉与语言任务中的应用，展示了其在物体再识别、图像去噪和视觉问答等方面的优越性能。研究表明，CLIP通过语言能力提升视觉表示，并在增量学习和少样本学习中表现出色，具有广泛的应用潜力。

科学与工程助力更优秀的文本生成 [译]

宝玉的分享 ·

本文介绍了TinyStories数据集和一种新的评估语言模型的方法，该数据集使用GPT-3.5和GPT-4生成，只包含3到4岁儿童通常理解的单词。使用TinyStories可以训练和评估小型语言模型，并引入新的评估范式来评估语言能力和多维度得分。这有助于低资源或专业领域的语言模型的发展和研究。

TinyGSM: 使用小型语言模型在 GSM8k 上达到 80% 以上

BriefGPT - AI 论文速递 ·

该研究发现，LM大小与挑战任务性能呈正相关，但在阅读时预测任务上，LM大小呈负相关。这表明处理努力和语言能力需要与训练GPT-like语言模型的方法不同。

大型 GPT 模型的问题：深入研究语言能力与心理语言学度量之间的关系

BriefGPT - AI 论文速递 ·

研究发现，大型语言模型中存在一个占据总模型参数约1%的核心区域，对特定维度上的单个参数的扰动可能导致语言能力的丧失。此外，语言能力的提高并不一定伴随模型知识水平的提升，可能存在与语言区分离的领域知识区域。探索大型语言模型的功能区域为我们提供了有关其智能基础的见解。未来，将继续研究语言模型内部的知识区域及其之间的互动。

揭示大型语言模型中的核心语言区域

BriefGPT - AI 论文速递 ·

大型语言模型（LLM）表现出了令人印象深刻的语言能力，但缺乏真正的理解能力，容易被误导或出错。LLM对于众所周知的话题或事实更加固执，容易被精心制作的错误信息所误导。训练数据的偏差也会影响模型的表现。因此，决定如何处理LLM生成的内容的是人类，而不是人工智能。

本文介绍了资深IT专家陈健在日本从事IT工作的经历，他认为日本和中国在IT行业的发展有所不同，日本的基础架构较重，发展较慢，而中国则是后来者优势，发展快。陈健在日本工作生活中最吸引的是安心的环境，包括自然环境、人文环境、医疗环境和食品卫生环境。他认为想要在日本工作的IT人员需要具备语言能力和熟练使用办公软件的技能。学习日语在日本工作中非常重要，可以通过各种语言班和自学来提高。在日本的工作文化中，他认为可以借鉴日本人的精神，掘地三尺地去解决问题。对于准备前往日本发展的中国IT人员，他建议要学会入乡随俗。在日本工作后，他认为要接受事情的发展，不要焦虑，只和自己比较，不要和他人或故国比较。