小红花·文摘

Ries 黑五4折优惠：看中文也能轻松涨词汇，浏览器英语环境生成器重磅升级，发布 iOS 客户端

小众软件 ·

使用AI学习任何语言

freeCodeCamp.org ·

智能AI训练方法在保持性能的同时将语言模型训练时间缩短25%

DEV Community ·

在大词汇量语言模型中减少损失

Apple Machine Learning Research ·

研究表明，扩大词汇量使人工智能语言模型更智能、更快速

DEV Community ·

本研究探讨了语言模型中标记粒度对惊讶度预测的影响，提出了一种新方法。结果表明，标记粒度显著影响预测能力，尤其是8,000词汇量的标记最具预测性，对认知建模应用具有重要意义。

The Impact of Token Granularity on Surprise Prediction Ability in Language Models

BriefGPT - AI 论文速递 ·

本研究解决了大型语言模型在训练过程中，因交叉熵计算导致的内存消耗过高的问题。提出了一种新的方法——Cut Cross-Entropy (CCE)，该方法不需要在全局内存中生成所有的logits，而是仅计算正确token的logit，并动态评估log-sum-exp。实验结果表明，CCE显著减少了内存占用，同时不影响训练速度和收敛性。

降低大词汇量语言模型的损失

BriefGPT - AI 论文速递 ·

本文探讨了多语言模型中的词汇容量和预训练策略，提出通过扩展词汇表、使用双语数据和构建高质量指令数据集来提升低资源语言的表现。研究表明，简单的词向量初始化方法在资源有限的环境中更有效，且句子级词汇表方法在英法翻译中优于传统大词汇表系统。

大词汇量提升大型语言模型

BriefGPT - AI 论文速递 ·

如何高效地学习英语

Limboy ·

如何高效地学习英语

Limboy ·

混阅 – 中英混合阅读：就不能好好阅读吗：利用 LLM 将中文内容转换为中英混合，扩展词汇量

小众软件 ·

本文介绍了多种3D占据预测方法，如OccNet、OVO和SelfOcc，旨在提升自动驾驶任务的性能。这些方法在不同数据集上显著降低了碰撞率，并提高了深度估计的质量，推动了3D场景理解的发展。

OpenOcc：基于占据表示的开放词汇量三维场景重建

BriefGPT - AI 论文速递 ·

作者分享了自己在四级考试前几天刷完了100天的多邻国学习计划，认为碎片化时间的利用是值得的，可以提高句子组织能力和词汇量。他称赞了多邻国的教学方式和提醒功能，祝自己在英语四级考试中能一次通过。

百词斩四级辞书刷完/365天纪念/多邻国百天核电

晓空blog ·

DeepMind的新论文表明，大型预训练语言模型在多模式数据集上具有出色的压缩率。算术编码器能够实现出色的压缩效果，同时研究结果与缩放规律相吻合。增加词汇量可以提高较小模型的压缩率，但对于较大的模型来说情况恰恰相反。

DeepMind《语言建模就是压缩》论文分析

极道 ·

该文提出了一种使用基于文本转图像的扩散模型进行文本到3D合成的方法，绕过了需要大规模标记的3D数据集和能够去噪的3D数据的限制。该方法使用梯度下降优化3D模型，并使用概率密度蒸馏引入的损失函数将2D扩散模型与3D模型相结合。该方法不需要3D训练数据，也不需要修改图像扩散模型，证明了使用预训练的图像扩散模型作为先验的有效性。

大词汇量三维扩散模型与变压器

BriefGPT - AI 论文速递 ·

该论文提出了一种基于神经网络模型的分步神经机器翻译（FNMT）方法，解决了机器翻译中目标语言词汇量和未知词汇数的问题。在 IWSLT'15 英法任务中，该方法表现优异，与基于单词和基于 BPE 的神经机器翻译系统相当。

在分解神经传输器中融入基于类别的语言模型的命名实体识别

BriefGPT - AI 论文速递 ·

分享我近期的收获，包括软件工程、笔记工具、词汇量对于知识量的影响

词汇量决定知识量 -#22

GeekPlux ·