【量化交易】另类数据:新闻、舆情、链上数据、卫星图

💡 原文中文,约37900字,阅读约需91分钟。
📝

内容提要

传统量化研究依赖行情和基本面数据,而另类数据(如招聘公告、卫星图像、社交媒体等)提供了未被充分定价的信息。这类数据需要自行采集和处理,具有高时效性和细粒度。文章探讨了如何有效利用这些数据,包括数据的定义、分类、工程化处理及其与传统数据的区别,强调了另类数据在投资决策中的价值和潜在风险,以及如何将其整合进特征库以支持量化研究。

🎯

关键要点

  • 传统量化研究依赖行情和基本面数据,另类数据提供未被充分定价的信息。
  • 另类数据需要自行采集和处理,具有高时效性和细粒度。
  • 另类数据与传统数据是补充关系,具有颗粒度细、时效性高、覆盖窄、噪声大等特点。
  • 另类数据的定义包括来源在体系外、需要二次加工和用于投资决策。
  • 与传统数据相比,另类数据在时间戳语义、覆盖率、样本选择、结构稳定性和法律风险等方面存在显著差异。
  • alpha衰减是另类数据的核心规律,数据的使用过程会导致alpha逐渐磨平。
  • 在工程化过程中,需要关注数据的采集、清洗、对齐和版本化等问题。
  • 社交媒体、新闻与舆情、卫星与物联网、链上数据等是几类重要的另类数据来源。
  • 在使用社交媒体数据时,需要考虑参与人群和话题特性对信号强度的影响。
  • 卫星数据和物联网数据的处理需要解决空间-时间对齐、季节性和数据生成过程变化等问题。
  • 链上数据的最大特点是结算系统本身是公开数据库,但获取有用因子需要经过复杂的解码和聚合过程。
  • 网页爬取是获取另类数据的常见方式,但需要遵循合规边界和法律法规。
  • 信用卡和电子支付数据在美国市场相对成熟,但在中国市场可得性较低,主要依赖于替代数据源。
  • 工程化的成功依赖于数据工程师与研究员的紧密合作,以及法务和风控的前置参与。

延伸问答

什么是另类数据,它与传统数据有什么区别?

另类数据是指不通过交易所或监管机构获取的、需要二次加工才能用于投资决策的数据。与传统数据相比,另类数据通常颗粒度细、时效性高、覆盖窄、噪声大。

如何有效利用社交媒体数据进行量化研究?

利用社交媒体数据时,需要关注参与人群和话题特性对信号强度的影响,提及频次和情感倾向是可用信号。

在处理卫星数据时需要注意哪些工程问题?

处理卫星数据时需解决空间-时间对齐、季节性变化和数据生成过程变化等问题。

链上数据的最大特点是什么?

链上数据的最大特点是结算系统本身是公开数据库,所有交易和状态变更都被记录在区块链上。

如何评估一个新数据源是否值得投入?

可以通过四个问题评估:数据是否有清晰的经济因果链路、覆盖率是否稳定、边际成本是否可承受、被同行使用前还有多少时间。

在量化研究中,如何处理法律风险?

处理法律风险时需遵循合规边界,确保数据采集和使用符合相关法律法规,如《个人信息保护法》和《数据安全法》。

➡️

继续阅读