【量化交易】另类数据:新闻、舆情、链上数据、卫星图
💡
原文中文,约37900字,阅读约需91分钟。
📝
内容提要
传统量化研究依赖行情和基本面数据,而另类数据(如招聘公告、卫星图像、社交媒体等)提供了未被充分定价的信息。这类数据需要自行采集和处理,具有高时效性和细粒度。文章探讨了如何有效利用这些数据,包括数据的定义、分类、工程化处理及其与传统数据的区别,强调了另类数据在投资决策中的价值和潜在风险,以及如何将其整合进特征库以支持量化研究。
🎯
关键要点
- 传统量化研究依赖行情和基本面数据,另类数据提供未被充分定价的信息。
- 另类数据需要自行采集和处理,具有高时效性和细粒度。
- 另类数据与传统数据是补充关系,具有颗粒度细、时效性高、覆盖窄、噪声大等特点。
- 另类数据的定义包括来源在体系外、需要二次加工和用于投资决策。
- 与传统数据相比,另类数据在时间戳语义、覆盖率、样本选择、结构稳定性和法律风险等方面存在显著差异。
- alpha衰减是另类数据的核心规律,数据的使用过程会导致alpha逐渐磨平。
- 在工程化过程中,需要关注数据的采集、清洗、对齐和版本化等问题。
- 社交媒体、新闻与舆情、卫星与物联网、链上数据等是几类重要的另类数据来源。
- 在使用社交媒体数据时,需要考虑参与人群和话题特性对信号强度的影响。
- 卫星数据和物联网数据的处理需要解决空间-时间对齐、季节性和数据生成过程变化等问题。
- 链上数据的最大特点是结算系统本身是公开数据库,但获取有用因子需要经过复杂的解码和聚合过程。
- 网页爬取是获取另类数据的常见方式,但需要遵循合规边界和法律法规。
- 信用卡和电子支付数据在美国市场相对成熟,但在中国市场可得性较低,主要依赖于替代数据源。
- 工程化的成功依赖于数据工程师与研究员的紧密合作,以及法务和风控的前置参与。
❓
延伸问答
什么是另类数据,它与传统数据有什么区别?
另类数据是指不通过交易所或监管机构获取的、需要二次加工才能用于投资决策的数据。与传统数据相比,另类数据通常颗粒度细、时效性高、覆盖窄、噪声大。
如何有效利用社交媒体数据进行量化研究?
利用社交媒体数据时,需要关注参与人群和话题特性对信号强度的影响,提及频次和情感倾向是可用信号。
在处理卫星数据时需要注意哪些工程问题?
处理卫星数据时需解决空间-时间对齐、季节性变化和数据生成过程变化等问题。
链上数据的最大特点是什么?
链上数据的最大特点是结算系统本身是公开数据库,所有交易和状态变更都被记录在区块链上。
如何评估一个新数据源是否值得投入?
可以通过四个问题评估:数据是否有清晰的经济因果链路、覆盖率是否稳定、边际成本是否可承受、被同行使用前还有多少时间。
在量化研究中,如何处理法律风险?
处理法律风险时需遵循合规边界,确保数据采集和使用符合相关法律法规,如《个人信息保护法》和《数据安全法》。
➡️