《大数据、机器学习与量化投资》托尼·吉达

内容提要

以从业者视角探讨如何在金融领域有效运用大数据和机器学习。近年来，机器学习和数据科学在投资中发挥着越来越大的作用。借助机器学习和大数据，投资经理能够做出以往传统模型无法实现的预测，进而做出明智的决策。然而，并不是所有的数据集和机器学习技术都对金融投资有用，也不是所有的机器学习技术都可以“即插即用”。《大数据、机器学习与量化投资》这本书由**量化分析专家托尼·吉达主编，汇集了多位业内颇具影响力的专家学者的前沿分享，阐释如何应用机器学习和大数据技术来解决投资问题并提高投资绩效。这本书共有13章，理论严谨，案例丰富，内容涵盖机器学习在投资管理中的应用现状和前景、另类数据和大数据在宏观交易中的应用、处理大数据集的难点和解决方案、挖掘社交媒体数据集分析企业文化、使用自然语言处理技术进行投资者情绪分析、基于支持向量回归的全球战术性资产配置策略、强化学习和深度学习在投资组合优化中的应用等主题，可以作为量化投资从业者、金融算法研究人员、高等院校计算机专业和金融工程专业的师生以及机器学习爱好者的参考用书。

文章节选

1.1导读
从传统上讲，不管是源于均衡经济学、行为心理学还是代理模型，绝大多数金融实践的核心都是通过结合优雅的理论与略显“琐碎”的实证数据而形成的。正如我在伦敦政经学院攻读博士学位期间所学到的，优雅的理论是高智力人群智力活动的凝结，它能够在代理人模型中进行微妙权衡，形成��杂的平衡结构，并指出传统理论有时候存在的矛盾。虽然“琐碎”的实证工作经常受到怀疑与藐视，人们还是不得不承认实证工作的必要性，它能够提供现实中的实际应用。这让我回想起在起风的院子里和狭窄的走廊中数次与那些睿智的博士生进行的对话，我们一直为“我该如何为我的假设寻找验证”这一个问题争论不休。
在量化金融中，出现了很多伪数学框架，它们通常是从邻近学科借鉴而来，比如物理学的热力学、伊藤引理、信息论、网络理论、数论，以及不那么技术性但勉强承认为科学的心理学。来去之间，市场吸收了这些理论。
机器学习和**模式识别，非常注重大规模的实证数据，对这些数据进行分析的规模和对细节的关注是前所未见的。有趣的是，机器学习对概念框架的贡献较少。在某些圈子中，有人吹嘘缺少概念框架是机器学习的优势，能够消除人类的偏见，以免限制于某一模型。但无论你认为这一工具有利或有弊，你必须承认一个事实，即这个领域的发展只会越来越快，越来越强有力。我们今天或许会称其为神经网络，也许明天又会有新的名字，但我们*终会到达一个时间点，届时大多数（即使不是所有）的模式都能够以近乎实时的方式被发现和检验，关注**将几乎完全聚焦于定义目标函数而非框架结构。
本章其余部分涵盖一系列观察与例证，分析机器学习如何能够帮助我们更加了解金融市场，以及机器学习现在所发挥的作用。这部分内容不仅来自我的经历，还基于我和学者、从业者、计算机科学家进行的多次对话，源自众多书籍、文章与播客的内容，是对目前涉及此类话题的广泛讨论的总结。
这是一个令人难以置信的时刻，我们保持求知探索的欲望与量化的思维，为后来者在量化投资领域提供科学的思考框架与统一的技术工具。
1.2 重复或是重塑
对世界的量化是人类的一种痴迷。这里的量化是指将人类观察到的模式进行分解，并在之后大量的观察中重复应用。量化金融的基础源于一代又一代智慧投资者的投资原则或洞察，这些投资者在没有大规模数据的帮助下就已经得出了这些洞见。
早期有关因子投资和量化金融的想法是对这些洞见的重现；它们本身并未创造出投资原则。有数代人研究并推断过价值投资（资产定价与公司估值）的内涵。量化金融吸收了这些观点，将其分解，吸取能够观察和延展的要素，再将其在大量的**公司中拓展。
提升规模的代价是将某一特定的投资准则应用在某一特定公司上所带来的复杂性和差异性，但在更大体量的投资组合中，这些细微差别被认为会被稀释而消弭，这些细微差别在过去和现在都在很大程度上被忽视。考虑你对一家银行或一家医药公司估值的细微差异，与所有股票都可以置于同一通用评价框架下进行比较的观点进行对比，如市净率等。投资洞见与未来回报的关系被重现成为因子暴露（风险敞口）与未来回报的线性关系，目前很少关注非线性的动态性或复杂性，而是关注因子的多样性与大规模应用，这被认为可以给现代投资组合带来更好的结果。
然而，也有人从早期因子研究中认识到因子之间的相互关系与相互作用，这一点成了现代风险管理技术的核心。有观点认为，有共同特征的股票（对共同特征的识别源于投资洞察力）也可能与宏观风格因子存在相互关系与相互作用。
在我看来，这点小小的发现实际上是对投资世界的重塑，在此之前甚至到现在，很多投资人依旧以孤立的方式看待股票，对股票的评价就好像是独立的私募股权投资。这无疑是一种重塑，将关注的对象从单个股票转向了共同的“主线”或因子，将单独来看没有直接商业关系的多种股票联系起来，这些股票有相似特征，意味着它们能够被同时买进或卖出。对“因子”联系的识别与改进成了许多投资过程的目标，尤其是2010年之后，这种投资方法获得了可观的收益。重要的是，我们开始将这个世界视为一系列因子，有些转瞬即逝，有些持久不衰，有些涉及短期预测，有些关乎长期预测，有些提供能够消除的风险，有些则提供有风险的回报。
因子代表了看不见（但可检测到）的主线，这些主线织起了整个全球金融市场。当我们（量化研究者）搜寻、发现并理解这些主线时，绝大多数人还在关注看得见的企业、产品与周期性盈利。我们将世界看作一个网络，其中的连接和节点是*重要的要素，而其他人则将世界视为一系列投资观点与活动的集合。
这样的重塑关键在于兴趣对象的转换，从单个股票到一系列网络关系，以及在时间维度上的变化。这样的重塑是严肃而微妙的，现在可能仍未得到充分的理解。我们现在只是在探索我们对因子理解的极限，考虑如何更好定义它们，如何对它们进行择时，同时努力尝试向非技术的投资者解释它们。好的因子择时模型是很罕见的，针对如何看待和运用择时，业界也争论不休。情景因子模型甚至更为罕见，这为实证与理论研究提供了非常有趣的研究方向。
1.3用机器学习重塑投资
使用机器学习重塑投资，这会重塑我们思考金融市场的方式，我认为这既是对投资对象的再确定，也是对金融网络的再思考。
请允许我利用简单的类比做一个思想实验。在字迹或人脸识别中，作为人类，我们寻求某种特定的模式来帮助我们理解世界。在有意识的、感知的层面上，我们注意的是在某人面部中，比如鼻子、眼睛、嘴巴中存在的某种模式。在这一例子中，感知的主体是这些单元，我们将它们的相似性与我们所熟知之人五官的相似性做评估。因此，就组成部分而言，我们的模式识别在一个相当低的维度上发挥作用。我们将问题分解成一系列有限的分组信息（在这个例子中即分解成面部特征），并对这些分组信息进行评估。在现代机器学习技术中，面部特征和手写字迹被分解成更小、数量更多的组成部分。以手写字迹为例，图片的像素被转换成数值矩阵表示，人们使用深度学习算法来寻找其中的模式。
我们现在有难以置信的强大工具来运算大规模数据，足以在样本的亚原子水平上寻找模式。在人脸和字迹识别的例子中，以及其他很多实践中，我们可以不再凭直觉或可理解的复杂方式来寻找这些模式；计算机工具不会从直觉上确定鼻子或眼睛，而是会在深度交叠的信息中寻找模式。早期实验结果喜忧参半，对抗系统已经表明有些初期模式极其脆弱。但随着技术的发展，以及我们技术使用水平的发展，这些模式可能会变得逐渐强劲，但仍将保留其复杂性。有时这些工具可以比我们更好、更快、更**地找到模式，这样就不需要我们的直觉感知时刻跟上事物变化了。
以此类推到金融领域，大部分的资产管理公司都关注金融（基本面）数据，例如损益表、资产负债表中的科目及收益数据等。这些数据条目可以有效地定义一家公司，正如一张面孔的主要模式特征可定义一个人。如果我们利用这些数据条目，将几百个数据条目运用在机器学习一类的大规模算法中，我们或许就可以发现在使用这一手段之前我们其实极大地限制了自己。
神经网络的“神奇”之处在于它们能够在原子（例如像素水平）信息中识别模式，但由于我们为其预先设定了更高维度的结构，我们或许已经限制了它们寻找新模式的能力，尤其是那些超越了我们线性框架中已经识别的模式。重塑意味着我们寻找新结构的能力，以及寻找更多投资中“原子”级别的微观表达，使得这些算法能够更好寻找模式。这可能意味着我们可以从季报、年报的科目中解脱出来，可以利用销售与收益的高频指标（基于另类数据源），寻找更高频且更相关的模式，来预测价格变动。
用机器学习重塑投资或许也意味着将我们的注意力转向将金融市场建模为一个复杂的（或仅仅是扩大的）网络，其中问题的维度或许会爆炸性地迅速升高，以至于我们的大脑无法处理。对一个网络进行单一维度评估的方法，就是有效地估计n×n的协方差矩阵。一旦我们将这一系统变为内生系统，二维矩阵内的许多链接将变成其他链接的一个函数，这样一来，模型将成为递归模型和迭代模型。而这还仅仅是在二维水平上。将金融市场建模成神经网络已经在有限应用场景中进行了尝试，近年来，供应链分析作为一种发现公司间细微关系的方式逐渐流行起来。另类数据或许能够从业务往来的角度，提供公司与公司之间新的明确可观察到的联系，从而构成网络的基础，但价格很可能会变动过快且变动幅度过大，从而不能由受普通供应合同简单决定价格。

第1章算法能构建出具有人类智慧的alpha吗 1.1导读 1.2重复或是重塑 1.3用机器学习重塑投资 1.4信任问题 1.5经济存在主义∶一项宏大设计抑或一次偶然事件 1.6这一系统究竟是什么 1.7动态预测与新方法论 1.8基本面因子、预测与机器学习 1.9结论：寻找投资中的“钉子” 第2章驾驭大数据 2.1导读 2.2使用另类数据的驱动因素 2.3另类数据类型、形式与范围 2.4如何判断哪些另类数据有用 2.5另类数据需要多少成本 2.6案例研究 2.7使用另类数据的明显趋势 2.8结论第3章机器学习在投资管理中的应用现状 3.1导读 3.2数据无处不在 3.3人工智能应用图谱 3.4行业间的相互联系和人工智能的实施推动者 3.5行业发展前景 3.6关于未来 3.7结论第4章在投资过程中使用另类数据 4.1导读 4.2量化浩劫：激励人们寻找另类数据 4.3利用好另类数据爆炸带来的好处 4.4选择要进行评估的数据源 4.5评估技术 4.6基本面基金管理者与另类数据 4.7若干例证 4.8结论第5章使用另类数据和大数据交易宏观资产 5.1导读 5.2理解大数据和另类数据的一般概念 5.3传统建模方法与机器学习 5.4大数据和另类数据：在宏观交易中的广泛使用 5.5案例研究：使用大数据和另类数据深入挖掘宏观交易 5.6结论第6章大即为美，从电子邮件收据数据预测公司销售额 6.1导读 6.2Quandl的电子邮件收据数据库 6.3大数据工作中的挑战 6.4预测公司销售额 6.5实时预测 6.6案例研究：亚马逊销售案例第7章将集成学习应用于量化股票：多因子框架中的梯度提升算法 7.1导读 7.2提升树入门 7.3数据和方案 7.4建立模型 7.5结果和讨论 7.6结论第8章企业文化的社交媒体分析 8.1导读 8.2文献综述 8.3数据与样本构建 8.4推断企业文化 8.5检验结果 8.6结论第9章能源期货交易的机器学习与事件检测 9.1导读 9.2数据说明 9.3模型框架 9.4表现 9.5结论第10章财经新闻中的自然语言处理 10.1导读 10.2新闻数据来源 10.3实际应用 10.4自然语言处理 10.5数据及方法论 10.6结论第11章基于支持向量机的全球战术性资产配置 11.1导读 11.2过去50年的全球战术性资产配置 11.3经济学文献中的支持向量机 11.4基于支持向量回归的全球战术性资产配置策略 11.5结论第12章金融中的强化学习 12.1导读 12.2马尔科夫决策过程：决策的一般框架 12.3理性及决策的不确定性 12.4均值-方差的等价性 12.5回报 12.6组合价值与财富 12.7具体案例 12.8结论与进一步的工作第13章金融深度学习，基于LSTM网络的股票收益预测 13.1导读 13.2相关工作 13.3金融市场的时间序列分析 13.4深度学习 13.5循环神经网络 13.6长短期记忆网络 13.7金融模型 13.8结论附录参考文献译者简介