基于金融时间序列分析的一种数据挖掘方法

背景及意义 金融时间序列的分析研究始终是经济学和统计学的一个热点,对于制定精确定价和预测决策是至关重要的,近代计量经济学和金融市场的许多研究成果和市场决策理论愈来愈多是建立在时间序列分析的基础上[1]。传统应用较广的是Box和Jenkins(1970)提出的ARIMA(自回归求和移动平均)方法;Engle(1982)提出了ARCH模型(一阶自回归条件异方差),用以研究非线性金融时间序列模型,由此开创了金融时序独树一帜的研究思路和方法[1][2]。 随着时间序列分析理论和方法的发展,美国学者Schemas和Lebanon发现股票日收益序列与周收益序列中存在混沌现象【3】,米尔斯也指出金融时间序列似乎通常可以用随机漫步来很好近似[1],非线性时间序列模型被广泛应用在金融时间序列分析中。 数据挖掘是信息技术自然演化的结果。是机器学习,统计学,数据库设计,可视化和信息科学等学科的交叉,用到其他学科的技术,如神经网络,模糊或粗糙集理论,知识表示,归纳逻辑程序设计或高性能计算[4]。针对不同数据库系统有不同的数据挖掘技术,其中之一为时间序列数据挖掘系统(TSMS),时间序列数据库是指由包含一些随时间变化的序列值构成属性的数据库,同传统数据库主要差异在于属性包含的信息内容,传统数据库每一记录包含属性独立于其他记录,而时间序列数据库中一些属性仅与时间分段有意义,如在股票时间数据库中,我们对一段时间股票价格更感兴趣,而不是仅仅对某一天的价格[5]。 时序数据库挖掘一般包括趋势分析,相似性搜索,序列模式挖掘和周期模式挖掘,发现转折点(change-points),暂态规则等方面内容[4][6][7]。用到技术和方法为类Apriori算法,离散傅立叶变换(DFT)和离散小波变换(DWT),模糊集,聚簇方法,神经网络等[4][][8],其中,神经网络所具有的非线性,适应性,泛化能力使其在时序数据尤其对非线性时序数据挖掘研究中已被认为是一有效的挖掘技术而广泛研究。 金融时序分析是应用性很强的研究方向,数据具有数据量大,记录不等间隔,混合了含有连续型和离散型的变量,分布具有厚尾性等的特征使现有的时间序列分析方法无法下手,许多具体问题使现有的时间序列分析方法无法下手,探索将数据挖掘的处理方法应用到金融时序分析上具有深刻意义[2]。 数据挖掘将成为金融时序分析的重要工具和组成部分。 国内外研究现状及存在问题 国外研究现状 Das等提出如何从时间序列中发现关联规则,其采用了平滑固定窗口来分离时序,然后用聚簇方法将子序列进行模式生成[9]。 Han等提出周期分段和部分周期分段的数据挖掘方法,其中用到类Apriori算法,关注于发现暂态模式而不是暂态规则。 Chung等提出动态分割方法对时间序列进行分段,需用户预选提供一组模式作为先验知识,在此基础上对原始时间序列进行分段[6]。 Chan等提出用小波变换对时间序列进行相似性搜索,其基于两类重要距离定义,Eucliden距离和时间戳[11],Rafiei等提出相似性搜索的方法基于傅立叶变换[12]。 Almeida等提出用领域知识(DomainKnowledge)用来对经济时间序列进行预测, 但领域知识的提出由赖于领域专家[10]。 Vojinovic等提出用径向基神经网络对时间序列预测[13]。 国内研究现状 陈哲等提出基于小波神经网络和相空间重构对混沌时间序列分析,并将其与MLP和ARMA模型作了比较[14]。 杨益群提出对时间序列进行小波分析进行预测的方法[15]。 康卓等提出多尺度动态概念并运用宏观动力学模型进行时间序列的预测[16]。 存在问题 用数据挖掘的方法对金融时间序列进行分析,方法多种多样,没有统一认识。目前数据挖掘的方法都只是针对特定时间序列分析,将其应用到不同非平稳时间序列上效果如何有待进一步研究。不同金融时序分析可能需要不同的分析方法。同时,对多元时间序列进行合成分析目前文献较少。 2004.4