dotNET跨平台 ·

聊一聊.NET的网页抓取和编码转换

💡 原文中文，约5200字，阅读约需13分钟。

📝

内容提要

本文介绍了两种用于HTML解析的类库，讨论了网页抓取、编码转换和压缩处理的知识，并提供了在.NET中实现它们的方法。在网页抓取中，使用HtmlAgilityPack库进行DOM解析，但遇到了编码问题，需要使用System.Text.Encoding.CodePages包进行编码转换。在网页压缩处理中，使用HttpClientHandler和HttpClient来处理压缩。最后，对代码进行了优化，推荐了AngleSharp库作为Html解析库，并提出了一些优化建议。希望对大家有所帮助。

🎯

关键要点

本文介绍了两种用于HTML解析的类库，HtmlAgilityPack和AngleSharp。
网页抓取中使用HtmlAgilityPack进行DOM解析，但可能遇到编码问题。
编码转换需要引入System.Text.Encoding.CodePages包，支持GBK编码。
使用HttpClient抓取网页时，建议设置请求头以伪装请求。
压缩处理可能导致乱码，HttpClient支持自动解压缩功能。
代码优化建议包括使用静态HttpClient实例和在程序启动时注册编码提供程序。
AngleSharp库被推荐作为Html解析的替代方案，支持更多功能。
文章总结了在开发BookMaker小工具时的网页抓取经验，希望对读者有帮助。

🏷️

继续阅读

微软在 Mesa 26.2 中首次实现了使用 DirectX 12 + HMFT 的 AV1 编码
微软工程师在Mesa代码库中新增了基于GPU的AV1视频编码功能，结合了DirectX 12和硬件媒体基础转换（HMFT）支持。该功能旨在实现Window...
Vulkan 视频 H.264/H.265 编码功能现已在 Linux 系统上的英特尔 Alchemist GPU 上正常运行
由于测试不足，英特尔早前禁用了新一代显卡的 Vulkan 视频编码功能。现在，Gen12.5 显卡（如 Arc A 系列）已重新启用 H.264 和 H....
一分钟读论文：《游戏引擎编码智能体基准测试》
多伦多大学的论文《GameEngineBench》提出了针对游戏引擎开发的编码智能体基准测试，发现最强模型在真实C++编译下的通过率仅为55.5%。该测试...
企业文档安全最佳实践（三）：人员密级匹配与审批流程控制
文件划定密级，人员亦须匹配相应权限等级。若人员未分级管控，涉密文件便会随意传阅，文件密级管理将形同虚设。在上Read More
机器人走进产线「打工」，至简动力不想让具身智能停在 PPT 上
具身智能能进厂打工，就是巨大的进步。#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
密瓜智能HAMi正式晋升为CNCF Incubating项目
(全球TMT 2026年07月07日讯)随着AI应用从试点走向生产，企业对算力基础设施的关注正在发生变化：问题 […]

内容提要

关键要点

标签

继续阅读