原创机器学习与因子模型实证：怎么进行模型训练？

原副标题：机器学习与胺基酸数学模型现代科学：是不是展开数学模型体能训练？

定量股权投资、套期保值公募基金、Fintech、人工智慧、大统计数据等应用领域的非主流自新闻媒体。公募公募基金、私募公募基金、公募基金公司、期货市场、商业银行、保险业务、院校等金融行业30W+年被百度云+街道社区评选活动为“本年度最差译者”。

副标题：Stock Market Anomalies and Machine Learning Across the Globe

译者：Vitor Azevedo、Georg Sebastian Kaiser、Sebastian Muller

序言

证券市场极度是指这些与现代金融创新方式论不合乎的现像，这些现像可能将引致股权投资女团整体表现稳定或是差劲。机器学习控制技术能协助他们更快地认知这些极度，并提升股权投资女团的整体表现。

责任编辑意在深入探讨机器学习数学模型在国际性证券市场极度预估中的应用应用领域。译者采用了源自数个北欧国家的大批统计数据，并选用多种相同机器学习演算法来构筑今后投资回报PID。她们还对相同演算法和RosettaDock方式展开了较为，并评估结果了它在样品内和样品外试验中的整体表现。译者辨认出：

1、机器学习数学模型能有效地预估证券市场极度，尤其是在样品外试验中整体表现更快。

2、相同的机器学习演算法和RosettaDock方式对预估能力的影响相同。例如，基于树的演算法（如随机森林和梯度提升树）通常比线性数学模型整体表现更快。

3、在国际性证券市场中，相同的极度变量具有相同的预估能力。例如，动量和价值胺基酸在数个北欧国家中整体表现稳定，而流动性胺基酸则在某些北欧国家中整体表现较差。

4、在构筑今后投资回报PID时，考虑数个极度变量之间的非线性关系能提升数学模型的预估能力。

试验了哪些胺基酸？

责任编辑采用了量价统计数据、基本面统计数据及分析师一致预期统计数据构筑了240个胺基酸（异象），这些统计数据从1980年7月至2019年6月，覆盖了MSCI主要地区指数的北欧国家（包括以下指数：MSCI North America, Europe, Pacific, Emerging Markets）。经过一系列的处理，最终的统计数据包括68个北欧国家66000家上市公司的超过9390万条的月度统计数据。从下表他们能看到中国的统计数据占了总样品的8.17%。

原创
机器学习与因子模型实证：怎么进行模型训练？

主要试验了113个基本面胺基酸、75个量价胺基酸、18个分析师胺基酸及19个估值胺基酸和15个其他胺基酸。所有胺基酸的统计数据都基于截面排序标准化到(0,1)的区间。胺基酸评价主要采用多空女团收益及其显著性。在构筑多空女团时，分别构筑了等权女团和市值加权女团。具体胺基酸列表请参考原文。

采用了哪些机器学习的数学模型？

采用的数学模型从简单到复杂主要分为三类：

1、线性回归数学模型，GLM（Generalized Linear Model）

2、树数学模型，Gradient Boosting Machine（GBM）

3、神经网络数学模型，总共有三个，浅层全连接数学模型（Small Feedforward Neural Network），深层全连接数学模型（Large Feedforward Neural Network）和RNN。

简单胺基酸整体表现是不是样？

在所有的240个胺基酸中，有167个胺基酸（约占总体70%）的多空收益显著（t值大于1.96）。t值大于3.00的胺基酸有132个。基于240个胺基酸的截面排序的均值，责任编辑构筑了一个Baseline factor。与所有单个胺基酸女团的平均整体表现对比，Baseline胺基酸的换手率更高，月度平均的整体表现也更优。等权Baseline胺基酸的整体表现也显著大于市值加权的Baseline胺基酸整体表现。在接下来的研究中，责任编辑将对比各数学模型于Baseline胺基酸的整体表现。

原创
机器学习与因子模型实证：怎么进行模型训练？1