原副标题:机器学习与胺基酸数学模型现代科学:是不是展开数学模型体能训练?
定量股权投资、套期保值公募基金、Fintech、人工智慧、大统计数据等应用领域的非主流自新闻媒体。公募公募基金、私募公募基金、公募基金公司、期货市场、商业银行、保险业务、院校等金融行业30W+年被百度云+街道社区评选活动为“本年度最差译者”。
副标题:Stock Market Anomalies and Machine Learning Across the Globe
译者:Vitor Azevedo、Georg Sebastian Kaiser、Sebastian Muller
序言
证券市场极度是指这些与现代金融创新方式论不合乎的现像,这些现像可能将引致股权投资女团整体表现稳定或是差劲。机器学习控制技术能协助他们更快地认知这些极度,并提升股权投资女团的整体表现。
责任编辑意在深入探讨机器学习数学模型在国际性证券市场极度预估中的应用应用领域。译者采用了源自数个北欧国家的大批统计数据,并选用多种相同机器学习演算法来构筑今后投资回报PID。她们还对相同演算法和RosettaDock方式展开了较为,并评估结果了它在样品内和样品外试验中的整体表现。译者辨认出:
1、机器学习数学模型能有效地预估证券市场极度,尤其是在样品外试验中整体表现更快。
2、相同的机器学习演算法和RosettaDock方式对预估能力的影响相同。例如,基于树的演算法(如随机森林和梯度提升树)通常比线性数学模型整体表现更快。
3、在国际性证券市场中,相同的极度变量具有相同的预估能力。例如,动量和价值胺基酸在数个北欧国家中整体表现稳定,而流动性胺基酸则在某些北欧国家中整体表现较差。
4、在构筑今后投资回报PID时,考虑数个极度变量之间的非线性关系能提升数学模型的预估能力。
试验了哪些胺基酸?
责任编辑采用了量价统计数据、基本面统计数据及分析师一致预期统计数据构筑了240个胺基酸(异象),这些统计数据从1980年7月至2019年6月,覆盖了MSCI主要地区指数的北欧国家(包括以下指数:MSCI North America, Europe, Pacific, Emerging Markets)。经过一系列的处理,最终的统计数据包括68个北欧国家66000家上市公司的超过9390万条的月度统计数据。从下表他们能看到中国的统计数据占了总样品的8.17%。
主要试验了113个基本面胺基酸、75个量价胺基酸、18个分析师胺基酸及19个估值胺基酸和15个其他胺基酸。所有胺基酸的统计数据都基于截面排序标准化到(0,1)的区间。胺基酸评价主要采用多空女团收益及其显著性。在构筑多空女团时,分别构筑了等权女团和市值加权女团。具体胺基酸列表请参考原文。
采用了哪些机器学习的数学模型?
采用的数学模型从简单到复杂主要分为三类:
1、线性回归数学模型,GLM(Generalized Linear Model)
2、树数学模型,Gradient Boosting Machine(GBM)
3、神经网络数学模型,总共有三个,浅层全连接数学模型(Small Feedforward Neural Network),深层全连接数学模型(Large Feedforward Neural Network)和RNN。
简单胺基酸整体表现是不是样?
在所有的240个胺基酸中,有167个胺基酸(约占总体70%)的多空收益显著(t值大于1.96)。t值大于3.00的胺基酸有132个。基于240个胺基酸的截面排序的均值,责任编辑构筑了一个Baseline factor。与所有单个胺基酸女团的平均整体表现对比,Baseline胺基酸的换手率更高,月度平均的整体表现也更优。等权Baseline胺基酸的整体表现也显著大于市值加权的Baseline胺基酸整体表现。在接下来的研究中,责任编辑将对比各数学模型于Baseline胺基酸的整体表现。
机器学习数学模型整体表现是不是样?
基准机器学习数学模型整体表现
针对6个相同的数学模型,分别针对原始的收益和收益排序展开了体能训练。下表A是采用收益率作为体能训练目标的数学模型整体表现,下表B是采用收益排序作为体能训练目标的数学模型整体表现。能看出:
1、所有基于收益率体能训练的6个数学模型的整体表现都优于Baseline胺基酸,而且3个神经网络数学模型的整体表现优于其他的树数学模型和回归数学模型,其中整体表现最好的是Small FNN。
2、所有基于收益排序体能训练的6个数学模型的整体表现也优于Baseline胺基酸,而且整体表现最好的也是神经网络模型,最优的是Large FNN。
3、整体而言,机器学习数学模型的整体表现要优于Baseline胺基酸,而且在采用神经网络数学模型时,基于收益排序预估的数学模型的效果要优于基于收益率预估的数学模型。
调整后的机器学习数学模型整体表现
基于预估的目标、窗口滑动的方式、采用的胺基酸集能构筑出多种相同数学模型:
1、预估目标能分为:收益率、收益率的截面排序
2、窗口滑动方式能分为:不滑动、10年滑动、扩展(即起始点不变)
3、胺基酸选择能分为:采用Lasso、Elastic Net选取胺基酸,采用固定t值过滤
下表给出了所有可能将性女团的试验结果,所有数学模型整体表现均优于Baseline胺基酸,其中整体表现最好的是Small FNN。
把所有数学模型按照相同的体能训练方式计算平均的效果,如下表所示,能看出,基于截面排序的数学模型效果要优于基于基于原始收益率的预估数学模型;基于Lasso选则胺基酸的数学模型整体表现更优。
即使是同一个数学模型,当选择相同的体能训练方式的时候都会带来很大的改变,如下图所示,对于GLM数学模型,当采用扩展窗口、基于收益排序和elastic net选择的胺基酸集展开体能训练时,该数学模型的整体表现能够提升1.56%。
总结
机器学习数学模型确实能够显著提升现代胺基酸的整体表现,但在具体实施过程中存在很多相同的选择,如体能训练的目标,窗口的滚动及胺基酸的选择。责任编辑给了他们一个非常详细的对比,很多结果也于他们直观的认知保持一致,为他们在具体应用应用领域机器学习数学模型提供的借鉴。