基于Logistic回归模型的量化投资策略研究

(整期优先)网络出版时间:2021-11-18
/ 2

基于 Logistic回归模型的量化投资策略研究

欧阳飞

兰州财经大学金融学院 730020

一 引言

随着计算机算力的大幅增长和海量的数据来源,使得机器学习算法能应用到许多领域,量化投资即是机器学习应用的重要领域。根据GUetal.(2020)将机器学习定义为:“一系列服务于统计预测的高维模型,及与之相伴的是用于模型选择和防止过度拟合的正则化方法,和对大量候选模型设定进行有效筛选的算法。”机器学习的本质是预测。而在多因子模型理论中,该理论认为资产的超额收益率是由许多因子暴露所推动,即资产的超额收益率可以得到解释。因此将机器学习与经典因子投资理论的结合,成为了量化投资的热门研究领域。

任何投资决策的做出,都是为了获得资产的超额收益,股票市场在漫长的发展中,催生出了两种经典的投资分析方法,基本面分析方法以及技术分析方法,基本面分析及根据当前国内国际宏观形势、行业发展趋势以及公司财务信息等,判断当前公司股价的高低;而技术面则是根据股票交易过程中所形成的各类技术指标,对未来股价进行涨跌进行预测。无论是基本面分析还是技术面分析,都是基于决策人主观的进行分析决策,对公司股票价格进行判断,进而做出决策。机器学习算法和多因子模型的结合,在大量的数据基础上,通过机器学习算法的运用,寻求众多因子与股票超额收益率之间的潜在关系,进而对超额收益率进行预测,再帮助决策人进行投资决策。该投资分析方法一定程度上杜绝了投资者情绪对投资决策的影响,因而量化投资的出现,使得投资人的决策更加理性客观。

Logistic模型作为机器学习算法的经典算法模型,被广泛应用于量化投资研究,Logistic模型是广义线性模型的一个特例。在1919年,著名的统计学家Fisher就首先对广义线性模型进行了研究,提出了Logistic模型,近百年的发展,模型更加丰富。1986年McCulagh和Nelder在其专著中进行了详细的介绍了广义线性模型,从而在这领域的研究工作工作逐渐丰富起来。2015年廖福挺(TimFutingLiao)通过研究解释概率模型,整理了关于二分类Logistic模型、次序Logistic模型和多分类Logistic模型等之间的关系以及各自的特点。Logistic模型应用也十分广泛,包括医学、信用评价和金融等方面。2014年阮承兰通过Logistic模型研究了对肝衰竭预后的因素分类,分类出保护因素和危险因素,对肝衰竭预后的判断具有参考价值。2004年于立勇采用Logistic模型分析来预测违约概率,通过实证分析,该模型为理想的预测工具。

本文将基于Logistic模型构建基于沪深300指数的量化投资策略,通过将过去八天沪深300指数的收益率的情况作为输入变量,来预测沪深300指数收益率进行投资决策,从而实现超额收益。

二、模型分析

2.1模型的建立

在多元回归模型中因变量为一个离散的变量,使用Y=0或者Y=1表示的二分变量,这时就不能用一般的线性回归模型了,可以采用Logistic模型。一般的广义线性模型公式为:

61960b8a4168d_html_6bdab3caa56093fc.gif (1)

其中E(Y)为响应变量Y的期望,g是单调函数,称为关系函数(link),61960b8a4168d_html_59d66ab0f4e8a47f.gif 为自变量61960b8a4168d_html_d9d26211467af06f.gif 的系数61960b8a4168d_html_e3deb42494c8aed2.gif 为常数项。

由于随机分布服从二点分布,即Y=0或者Y=1的二分变量,此时y=1的条件概率为:

61960b8a4168d_html_5f8fa0241cc562f7.gif (2)

Logistic回归模型的关系函数为:

61960b8a4168d_html_99477a11ca1c804e.gif (3)

将式(2)和式(3)代入到式(1)中,可以求得Y=1和Y=0的条件概率分别为:

假设Y=1为事件发生,通过上式可以算出事件发生概率。

61960b8a4168d_html_2a63b7f366d9f0bc.gif

61960b8a4168d_html_5c135b61dadb9d4b.gif

2.2变量的确定

本文是基于过去八天沪深300指数收益率情况,来预测最新一天的收益率情况,如果为正则进行做多操作,如果为负则进行做空操作。选取2015年1月1日至2018年12月31日的数据为训练数据,2019年1月1日至2021年5月30日的数据为回测时期,进行回测。

我们令沪深300指数收益率的大小为响应变量,若指数收益率大于0则令Y=1。反之若指数收益率小于0,则Y=0。此时就构造出响应变量为Y=0和Y=1的二分问题,并可以用Logistic最指数收益率正负情况进行预测,并进行交易。

对于自变量的选股,影响指数收益率的因素众多,本文选取沪深300指数过去8天的指数收益率数据作为自变量,对最新一天的沪深300收益率情况进行预测。

2.3Logistic策略模型运行步骤

Logistic选股模型主要分为两步:模型选股和回测。第一,在回测时间段之前,选取沪深300指数数据,并计算相应的指数收益率,如果收益率大于0,记为1,否则,记为0,构造一个因变量的矩阵。再选取过去八天的指数收益率数据,作为自变量,分别进行Logistic回归分析。通过Logistics回归分析的结果算出沪深300指数下一天涨跌的概率,如果预测为涨,则进行做多操作,反之若为跌,则进行做空操作。

三 实证分析

本文用到Python语言的Sklearn库,进行模型计算,得到的回测结果如下:

61960b8a4168d_html_42a08ff8e4e237b0.png

年化收益率

年化风险(61960b8a4168d_html_5e787aa811d3b746.gif

29.11%

14.2%

从实证分析结果来看,策略模型的年化收益率为29.11%,年化风险(波动率)为14.2%,从收益率曲线可以看出,虽然获得一个不错的年化收益率,但是也经历了许多次的回撤,总的来说该模型是有效的。

四 总结

本文以沪深300指数为研究目标,对其利用Logistics模型进行沪深300收益率正负情况进行预测,若预测为正则采取做空操作,反之若为正,则采用做空操作,实证结果表明,年化收益率为29.11%,年化风险为14.2%。模型分析相比文献,本文具有补充性和实用性,由沪深300成分股基本是属于大盘股,更具有投资价值。本文也存在一些不足,由于影响股市的因子众多,本文只研究了一些因子,因子选择不够全面,不能表现出全部的实际情况,对预测模型的结果,有一定影响。对于预测模型来说,回测时间也会影响模型的效果。这些问题在以后的研究工作中加以适当改进。







参考文献

[1]王文轩,蔡伟宏.基于Logistic回归的股价上涨概率预测研究[J].中国市场,2020(06):7-8.

[2]陈满祥,吴冕,吴昊,李雯.基于财务驱动因子的logistic预测选股模型[J].经贸实践,2018(12):161+163.

[3]李永康. 基于Logistic回归的量化选股实证研究[D].山东大学,2018.

[4]田凯,刘永睿.创业板基于logistic模型量化选股[J].现代商贸工业,2017(01):92-94.

[5]杨大楷,王佳妮.证券分析师个人决策及其影响因素——基于因子分析和Logistic回归模型的实证检验[J].上海金融,2012(11):78-84+118.