赞
踩
本文由BigQuant翻译来自于MSCI研究,原文标题为《机器学习因子:在线性因子模型中捕捉非线性》
作者:George Bonne, Jun Wang, Howard Zhang
发表时间:2021年3月
虽然机器学习(机器学习)算法已经存在了几十年,但最近它们在包括金融在内的许多领域受到了越来越多的关注,尤其是在解释资产回报的应用上。虽然线性因子模型多年来一直是理解风险敞口、风险和投资组合表现的重要工具,但没有哪一种模型是一成不变的,即因子敞口和回报之间的关系必须是线性的。
在这里,我们研究了在去除线性成分后,机器学习算法在多大程度上可以检测因子暴露和安全回报之间的关系中的显著非线性和相互作用。 通过使用简单的技术,我们之前证明了因子风险敞口和回报之间可能存在非线性关系,特别是在波动的市场条件下,动量和流动性因子(Wang, Yao和Bonne, 2020)。
在这项研究中,我们发现机器学习算法可以识别非线性关系,并可以用来构建一个具有显著解释力的因子。我们还确定了几个关键因子,它们显著影响机器学习算法解释安全回报横截面的能力,包括输入和因变量的标准化,以及将许多机器学习模型的输出平均到一个集成中。
为了深入了解机器学习算法识别出的关系,我们检查了部分依赖曲线(dependence curves)、特征重要性和交互效应。我们发现流动性和动量因子对机器学习模型的输出影响最大,并且它们的影响也与我们之前的研究一致。此外,我们发现因子之间的交互作用对机器学习模型的输出有显著影响。
我们在MSCI Barra全球股票交易模型(GEMTR, Morozov et al., 2016)中评估了我们的机器学习因子作为附加因子,发现在1998-2020全样本期间,它生成了所有GEMTR类型中最强的信息比率(IR)和因子回报。我们假设机器学习因子的强而一致的表现是由在一个因子中捕获许多小型非线性效应的多样化收益驱动的。
我们认为,使用机器学习技术构建的因素可能对只做多和多做空组合的组合构建过程有价值,并将帮助投资者理解和捕捉对业绩的非线性和交互影响。
多年来,线性因子模型被广泛用于理解投资组合风险和回报(Rosenberg, 1974)。这类模型中的大多数因子,如GEMTR,都是基于基本和直观的公司特征构建的,如行业成员、估值或其他财务比率、价格回报或波动性,甚至是基本指标的非线性转换(例如,对数或立方)。其他因子是用统计技术构建的,如主成分分析,但缺乏直观的解释。然后将产生的因子合并到一个线性模型中,该模型假设因子暴露和回报之间的关系是线性的。这种假设允许一个非常可解释和计算效率高的模型,但可能无法捕捉到非线性关系或因子之间的相互作用。
机器学习算法擅长拟合复杂的关系和变量之间的相互作用,它们也已经存在了几十年。例如,Breman(1984)描述了一般的基于树的方法,这些方法后来通过套袋和助推等技术得到了增强(Friedman, 2001)。第一个人工神经网络是由心理学家Frank Rosenblatt在1958年发明的,这些算法在图像识别、蛋白质折叠(protein folding)和语言翻译等多个领域都取得了成功。最近,人们对机器学习在金融领域的应用产生了浓厚的兴趣,尤其是在资产回报方面。例如,见Gu, Kelly and Xiu (2020);Dixon and Polson (2019);和Aw, Jiang and Jiang(2019)。
然而,如果所使用的数据包含很少的信号和大量的噪声,就像资产回报的情况一样,机器学习在拟合复杂模式方面的优势也可能是一个弱点。在这种情况下,机器学习模型最终可能会拟合更多的噪声而不是信号。然而,Lopez de Prado(2018)和Rasekhschaffe(2019)等人提出了在金融应用中使用机器学习同时最小化过拟合风险的框架和最佳实践。我们在研究中使用了许多这样的技术。
与Rasekhschaffe(2019)一致,我们的研究还表明,在应用于资产回报的机器学习模型取得的成功水平上,有一些细微差别可以发挥重要作用。这些细微差别包括特征工程(对原始输入特征进行标准化或转换)、因变量的标准化或分组,以及多个机器学习模型预测的集合平均。
机器学习技术的另一个缺陷是它们的黑箱特性。一个新的可解释机器学习领域已经出现,以减轻这一缺点。Li(2020)在汇率预测研究中利用可解释机器学习技术对模型进行分解,预测分为线性、非线性和相互作用分量。我们使用类似的方法来查看黑箱内部。
在使用机器学习识别非线性关系的过程中,我们研究了在多个维度上训练的各种机器学习模型的敏感性,这些维度包括复杂性参数、输入特征的重要性、因变量的比例、训练窗口和集成方法。在接下来的章节中,我们将检查这些敏感性以及产生的机器学习因子的性能,它们的稳定性以及与传统因子的相关性。
我们的基线框架使用GEMTR的22种风格因子暴露作为机器学习算法的输入特征(注:参见Morozov等人2016年对GEMTR中所有22种风格因子的完整描述)。 风格因子暴露均标准化,约为[- 3,3](注:我们在每个日期对每个因子进行横截面标准化,方法是减去市值加权平均值,并除以剔除离群值后的MSCI ACWI IMI指数中所有股票的等加权标准差。)。我们还探讨了添加更多输入特征的影响,如行业和国家因子暴露和额外的风格因子或描述符(因子的构建块)。因变量设为下个月的标准化专项收益,即考虑各因子线性贡献后的收益。换句话说,我们训练一个机器学习模型来预测下个月的具体回报,使用风格因子暴露作为输入。因此,我们明确地指导机器学习模型捕捉线性模型在其残差中留下的非线性关系。这与其他研究有显著差异,其他研究多以总回报作为因变量。我们的框架允许我们保持线性模型和因子的可解释性,同时利用机器学习仅捕捉线性模型错过的非线性和交互影响。在数学上,我们的机器学习因子可以表示基本线性因子模型方程:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。