厦大数据库实验室博客 ·

基于大模型和Spark的B站数据分析

💡 原文中文，约8400字，阅读约需20分钟。

📝

内容提要

本文介绍了基于Spark和Python的B站数据处理与分析实验，包括环境搭建、Hadoop和Spark安装、数据采集及代码组织，强调了AI工具在编程中的应用。

🎯

关键要点

文章介绍了基于Spark和Python的B站数据处理与分析实验。
实验环境包括MacBook Air、Ubuntu 22.04、Hadoop 3.3.5、Spark 3.4.0等。
详细描述了在VMWare中安装Ubuntu的步骤。
提供了Hadoop和Spark的安装过程及注意事项。
数据采集部分使用了ChatGPT辅助选择数据集和编写代码。
采集代码结构清晰，包含多个模块和数据存储目录。
使用AI工具如Copilot和ChatGPT辅助编写爬虫代码。
数据预处理阶段筛选了有用字段并进行了初步处理。

❓

延伸问答

如何搭建基于Spark和Python的B站数据分析环境？

可以在MacBook Air上安装Ubuntu 22.04，并配置Hadoop 3.3.5和Spark 3.4.0，使用VSCode进行开发。

在数据采集过程中，如何使用AI工具？

可以使用ChatGPT和Copilot辅助选择数据集和编写爬虫代码，提高编程效率。

B站数据采集的主要步骤是什么？

主要步骤包括获取采集接口、编写爬虫代码、组织代码结构和数据预处理。

如何在VMware中安装Ubuntu？

在VMware中选择“从光盘或映像中安装”，配置虚拟机后安装live-server，再安装桌面环境。

数据预处理阶段需要筛选哪些字段？

需要筛选视频的bvid、标题、简介、时长、UP主信息、播放数、评论数等字段。

如何使用Postman调试B站的API接口？

可以将采集接口拷贝成curl命令，复制到Postman中进行进一步调试，方便查看接口返回结果。

🏷️

继续阅读

人工智能与教学 – 勇敢的新世界
斯坦福的精益启动课程利用AI工具加速最小可行产品（MVP）的开发，但过快的进程使得团队难以进行有效的客户验证，且依赖AI沟通降低了洞察质量。客户开始重视数...
停止手动编码变更数据捕获管道
AutoCDC是一个自动化工具，简化了变更数据捕获（CDC）和缓慢变化维度（SCD）的实现。它通过声明性编程减少手动编码的复杂性，提高数据处理的效率和准确...
【开源许可与版权工程】开源世界全景：从 GNU 到大模型的四十年
文章探讨了自由软件、开源、Source Available和专有软件之间的关系，分析了开源协议的演变及其对商业的影响，特别关注2018年后开源协议的变化，...
【大模型基础设施工程】02：GPU 计算入门——SM、Tensor Core、HBM、NVLink
本文探讨了GPU在大模型训练中的优势，特别是与CPU的对比。GPU通过大量弱核和简化控制实现高算力密度，适合处理大规模矩阵运算。分析了GPU的执行模型、内...
【大模型基础设施工程】05：训练全景：Pre-train、SFT、RLHF、DPO、蒸馏
大模型训练应视为流水线，分为数据工程、预训练、中训、微调和对齐等阶段。每个环节有不同的算力需求和挑战，数据质量至关重要。预训练需处理大量干净数据以确保模型...
【大模型基础设施工程】07：Megatron-LM 与 DeepSpeed
本文探讨了大模型训练中的开源框架，包括Megatron-LM、DeepSpeed和FSDP2。Megatron-LM专注于张量并行，适合超大模型；Deep...