DeepSeek AI开发了DeepSeek-OCR,一个开源系统,通过光学2D映射压缩长文本,提升大语言模型的处理能力。该系统使用视觉编码,以低于10倍的压缩比实现97%的OCR精度,尤其在处理高分辨率输入和多语言文档时表现优异。其代码和模型权重已在GitHub上公开,鼓励研究者探索。
华盛顿大学研究者开发了LLMc,一种基于大型语言模型的无损文本压缩引擎,其压缩率优于传统工具。LLMc采用概率预测和排序编码方法,有效压缩文本,但在处理速度和应用范围上仍面临挑战。
为优化项目性能,我采用了文本压缩、代码分割和现代图像格式。通过安装vite-plugin-compress实现文本压缩,使用React的<Suspense>和lazy()减少未使用的JavaScript,并选择WebP格式服务图像,显著降低文件大小。
本研究介绍了FineZip,一种结合在线记忆和动态上下文的创新文本压缩系统,将压缩时间从9.5天缩短至约4小时,并在压缩比上优于传统算法,为大型语言模型的无损文本压缩奠定基础。
本周Github上有7个有趣的项目,包括网络交通模拟器UXsim、Python状态机库python-statemachine、Netflix GraphQL联邦复制演示项目、llama-zip命令行实用程序、supa-spring-kt项目、entropy工具和Coolify。
完成下面两步后,将自动完成登录并继续当前操作。