厦大数据库实验室博客 ·

基于Spark与大型语言模型的融合应用

💡 原文中文，约16200字，阅读约需39分钟。

📝

内容提要

本文介绍了使用大数据技术和人工智能对贵州茅台公司股票数据进行分析的实验，包括数据获取、预处理、多维度分析、SQL查询和数据可视化。实验结果为投资者提供了市场洞察和用户体验的潜力。

🎯

关键要点

本文介绍了使用大数据技术和人工智能对贵州茅台公司股票数据进行分析的实验。
实验包括数据获取、预处理、多维度分析、SQL查询和数据可视化。
数据集为2004年1月1日至2024年5月10日的每日股票行情数据。
使用pandas进行数据预处理，结合Tushare和Baostock两个开源接口获取数据。
数据预处理步骤包括合并数据、填充缺失值和处理异常值。
使用Spark进行数据分析，分析内容包括平均交易量、收盘价波动、涨跌幅与财务指标的相关性等。
引入大型语言模型（LLM）以提高数据分析的准确性和用户交互的便捷性。
通过生成SQL查询语句，将用户的自然语言问题转化为数据库查询。
数据可视化使用matplotlib库，展示了分析结果的柱状图、饼状图和折线图等。
实验结果为投资者提供了市场洞察和用户体验的潜力，证明了结合大数据分析和LLM的有效性。

❓

延伸问答

如何获取贵州茅台公司的股票数据？

使用开源股票数据接口Tushare和Baostock获取数据，结合两者的优缺点进行数据整合。

实验中使用了哪些数据预处理步骤？

数据预处理包括合并数据、填充缺失值和处理异常值。

如何分析贵州茅台股票的平均交易量？

使用Spark的groupBy和agg方法按年份计算每年的平均交易量。

大型语言模型在实验中有什么作用？

大型语言模型用于将用户的自然语言问题转化为SQL查询，提高数据分析的准确性和用户交互的便捷性。

实验结果如何为投资者提供市场洞察？

实验结果通过多维度分析和数据可视化，为投资者提供了关于股票市场的趋势和模式的直观理解。

如何实现数据可视化？

使用matplotlib库，通过柱状图、饼状图和折线图等多种形式展示分析结果。

🏷️

标签

spark 人工智能大型语言模型大数据技术数据分析股票数据贵州茅台

➡️

继续阅读

苹果更新TestFlight应用对于参与大量测试的玩家现在可以使用搜索功能
# 软件资讯苹果更新 TestFlight 应用，对于参与大量测试的玩家来说，现在可以使用底部的搜索框快速找到应用。为避免误解所以需要说明，搜索功能仅可...
WAIC重磅成果｜仪电智算云在国家人工智能应用中试基地建设中展现全栈服务能力
GKE Security Blueprint Joins Growing List of Cloud AI Frameworks
Google Cloud has published a new blueprint setting out how organisations shou...
前员工实名举报导致上市受阻？小红书终于回应了
【TechWeb】7月22日消息，据财新网报道，针对近期流传的IPO消息，小红书回应称，相关信息均不属实，目前没有收到任何上市的确定信息。今年6月中旬，有...
AI驱动的CLO zFab面料测量套件开放全球供应
（全球TMT 2026年07月22日讯）CLO虚拟时尚宣布，AI驱动的面料数字化解决方案CLO zFab面料测 […]
AI 圈今天最大的瓜：GPT-6 越狱攻击，被 GLM 5.2 揪出了
「GPT-6」为了考试作弊，黑进了别人的服务器#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。