量子位 ·

超越ZIP的无损压缩来了！华盛顿大学让大模型成为无损文本压缩器

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

华盛顿大学研究者开发了LLMc，一种基于大型语言模型的无损文本压缩引擎，其压缩率优于传统工具。LLMc采用概率预测和排序编码方法，有效压缩文本，但在处理速度和应用范围上仍面临挑战。

🎯

❓

LLMc是一种基于大型语言模型的无损文本压缩引擎，压缩率优于传统工具。

LLMc利用概率预测和排序编码方法，通过存储词元在概率排序列表中的排名来实现压缩。

LLMc的压缩率在多种数据集上优于传统工具，如ZIP和LZMA。

LLMc的主要作者是来自上海交通大学的本科生Yi Pan，目前在华盛顿大学实习。

LLMc面临效率、吞吐量、数值稳定性和应用范围等挑战。

LLMc利用香农的信源编码定理，将自然语言的高维分布转换为结构化的概率信息，从而实现高效压缩。

🏷️

大型语言模型评估与AI代理监控的可观测性
人工智能，尤其是大型语言模型（LLM）的快速发展，推动了多代理系统在现代组织中的应用，以提升适应性和效率。评估LLM及监控AI代理的能力至关重要，确保其在...
人工智能论文评审：语言模型是少量学习者（GPT-3）
GPT-3的论文展示了大型语言模型如何通过上下文学习新任务，而无需特定的微调。它能够通过示例直接从提示中学习，标志着AI系统交互方式的重大转变。这种“少量...
大模型内化的十年开源积累，正在补完 shadowsocks 的原始愿景
自2012年提出以来，Shadowsocks技术用户已能轻松自建，但非技术用户仍面临障碍。到2025-2026年，开源社区的贡献被大模型内化，降低了协议自...
保持pgBackRest的开放性、健康性和社区驱动
文章讨论了如何将pt-query-digest风格的慢查询分析应用于PostgreSQL，介绍了使用pg_enhanced_query_logging工具的具体方法。
安全通告：Qt中OpenSSL后端证书加载机制的不可信搜索路径漏洞
Qt的OpenSSL后端证书加载机制存在不可信搜索路径漏洞（CVE-2025-14575），影响Qt 5.0.0至6.5.9及6.6.0至6.8.3和6....
本周在PSC (225) | 2026-05-18
三位成员参加会议，讨论了一些重要但相对较小的问题，决定发布5.43.11开发版本。目前尚未确定发布经理，将在邮件列表中征求志愿者。