厦大数据库实验室博客 ·

基于大模型和Spark的B站数据分析

💡 原文中文，约8400字，阅读约需20分钟。

📝

内容提要

本文介绍了基于Spark和Python的B站数据处理与分析实验，包括环境搭建、Hadoop和Spark安装、数据采集及代码组织，强调了AI工具在编程中的应用。

🎯

关键要点

文章介绍了基于Spark和Python的B站数据处理与分析实验。
实验环境包括MacBook Air、Ubuntu 22.04、Hadoop 3.3.5、Spark 3.4.0等。
详细描述了在VMWare中安装Ubuntu的步骤。
提供了Hadoop和Spark的安装过程及注意事项。
数据采集部分使用了ChatGPT辅助选择数据集和编写代码。
采集代码结构清晰，包含多个模块和数据存储目录。
使用AI工具如Copilot和ChatGPT辅助编写爬虫代码。
数据预处理阶段筛选了有用字段并进行了初步处理。

🏷️

继续阅读

人工智能可以让开发者在技术债务的创造上提升十倍
文章探讨了AI工具在软件开发中的生产力差异，TurinTech的Michael Parker指出，不同团队的效果各异，有的显著提升，有的面临挑战。他强调规...
Quant Trader，量化&风控开发工程师，Golang 工程师
该公司在香港招聘量化交易员、量化与风控开发工程师及Golang工程师，要求候选人具备实盘经验和扎实的Python与Golang技术能力，团队氛围扁平且稳定性高。
如何在Python中实现单例模式（以及为什么你可能不应该这样做）
单例模式确保类在应用中只有一个实例，常用于配置管理和数据库连接。尽管有其优点，但也增加了调试和测试的复杂性。本文介绍了在Python中实现单例的多种方法，...
Claude Code在微软内部突然无处不在
微软广泛采用Anthropic的Claude Code，鼓励所有员工，包括非技术人员，使用该工具进行编码。这显示了微软对Anthropic AI工具的信心...
文心大模型5.0正式版，上线！
百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜介绍，与业界多数采用“后期融合”的多模态方案不同，文心5.0的技术路线采用统一的自回归架构进行...
人工智能的年份：监管行业即将迎来的三大关键转变
到2025年，高度监管行业的企业将评估AI能力，识别可行用例，推动大规模AI实施，主要包括加速遗留系统现代化、预测安全操作和扩展开发能力。这将提升组织效率...

基于大模型和Spark的B站数据分析

内容提要

关键要点

标签

继续阅读