ImageVerifierCode 换一换
格式:PDF , 页数:58 ,大小:2.63MB ,
资源ID:12487549      下载积分:12 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/12487549.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(毕业论文(设计)聚类分析在股指期货期现套利中的应用.pdf)为本站上传会员【曲****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

毕业论文(设计)聚类分析在股指期货期现套利中的应用.pdf

1、摘要股指期货是以股票指数为标的的金融期货。作为期货的一个重要作用便是通 过期现套利来防范现货市场的风险。而股指期货不同于商品期货的地方在于它的 现货标的并不是一个实物,而是一个指数。那么如何选择股票的组合来实现最小 化误差的模拟这个指数便是一个重要问题。本文在对现有的各种现货模拟的方法 对比分析后,创新的将时间序列聚类分析应用到股指期货的现货模拟上,成功地 选择出了有代表性的现货组合。本文的主要研究工作和成果概括如下:分析讨论了目前常用的股指期货现货模拟策略,对各种策略的特征及效 果做了分析比较。将聚类分析应用于抽样复制的现货模拟策略,利用聚类分析技术来解决 抽样复制的样本选择问题,提出了基于

2、聚类分析的抽样复制模拟策略。创新地将ETF和个股相结合,利用特征提取技术,用GARCH模型对时 间序列进行拟合,然后对求解的模型参数作为时间序列的特征,提出了 基于GARCH模型的抽样复制模拟策略。最后实证分析了各种指数模拟策略,从实验结果上肯定了文中提出的新 的模拟策略的优越性。关键词:时间序列,聚类分析,股指期货,期现套利AbstractStock Index Futures is a financial futures.It is the stock index for the subject.As one of the important role of futures is usin

3、g future arbitrage to prevent the risk of the spot market.Index futures and commodity futures is different from the spot where the subject is that it is not a physical,but an index.So how to choose a combination of stocks to achieve the smallest error of the simulation of this index is an important

4、issue.In this paper,time-series cluster analysis will be applied to the simulation of stock index to choose a representative stock portfolio.The main research work and results summarized as follows:Analyze the cunent common stock index simulation strategy and compare the characteristics of the vario

5、us strategies and effects Cluster analysis will be applied to sample copy simulation strategy.A new sample copy simulation strategy using feature extraction techniques based on GARCH model will be present.An Empirical Analysis of the index simulation strategy confirmed the superiority of the new str

6、ategyKey words:time series,cluster analysis,stock index futures yfutures arbitrage第一章前言1.1 研究背景中国期货市场自1992年开始试点交易以来,经历了最初的盲目发展、1993年 起的清理整顿以及2004年起的稳步发展,已成为仅次于美国的全球第二大商品期 货市场,各项功能初步发挥,国际化程度开始提高。目前,中国期货交易已形成了较完备的法律法规体系,市场环境明显改善。2008年,全国期货市场成交额突破71万亿元,创出历史新高,成为全球第二大商品 期货市场。不过,美国期货期权交易额一般是G D P总量的10倍以上

7、中国期货交 易额才达到G D P总量的两倍左右。产品方面,中国覆盖农产品、普通金属、贵金属、能源和化工等领域的商品 期货体系已初步形成。除原油外,国际市场主要大宗商品期货交易品种都已在中 国上市交易,首个金融期货品种股指期货正在筹备当中,钢材、稻谷期货即将上 市。不过,中国产品配套和产品深度还有很大差距,特别是至今没有金融期货品 种。我国金融衍生品期货的缺失,是造成我国期货市场近十年发展缓慢的主要原 因之一。据统计,近十年来,全球的期货、期权交易量增长了十倍左右,其中金 融期货已经成为期货市场成交量最大的种类,商品期货的成交量不足总成交量的 1 0%。上市公司的股票全流通后的同股同价、汇率的

8、有管理浮动、金融机构借贷款 利率上下限的放开,标志着中国金融产品的市场化迈出了第一步。而作为第一个 金融期货品种即股指期货的上市,才将真正拉开中国金融体制市场化改革的序 幕。股指期货是针对股票指数为标的的金融期货。股票现货市场和股指期货 市场紧密相连,根据股指期货的制度设计,期货价格在合约到期日会与现 货市场标的指数的价格相等。但实际行情中,期货指数价格常受多种因素 影响而偏离其合理的理论价格,与现货指数之间的价格差距往往出现过大 或过小的情况,一旦这种偏离出现,就会带来在期货市场和现货市场之间 套利的机会,我们把这种跨越期市和现市同时进行交易的操作称之为期现 套利,也叫指数套利。股指期货的期

9、现套利不同于商品套利。因为它的现货是一个指数,并非实 物。如何精确的模拟它的现货,也就是指数,是期现套利中最为关键的一环。现 有的三大类指数模拟策略:全复制,抽样复制,ETF组合都有它们各自的缺点。而且三种方法都将时间序列作为简单的数据集来看待,这限制了它们进一步的改 进。1.2 论文的主要工作本文在分析了现有的各种指数模拟策略之后,初步采用了 KMEAN聚类算 法对个股序列进行了聚类分析,对抽样复制做出了改进。之后创新的将ETF和 个股序列相结合,提出了基于特征的抽样复制现货模拟策略。本文的主要研究工作和成果概括如下,分析讨论了目前常用的股指期货现货指数模拟策略,对各种指数模 拟策略的特征及

10、结果做了分析比较。将聚类分析应用于抽样复制的现货模拟策略,利用聚类分析技术来 解决抽样复制的样本选择问题,提出了基于聚类分析的抽样复制模 拟策略。创新地将ETF和个股相结合,利用特征提取技术,用GARCH模型 对时间序列进行拟合,然后对求解的模型参数作为时间序列的特征,提出了基于GARCH模型的抽样复制模拟策略。最后实证分析了各种指数模拟策略,从实验结果上肯定了文中提出 的新的模拟策略的优越性。213论文的内容安排第一章前言:介绍本文的研究背景及指数模拟的现有策略,并说明论文的主要工作和内容 安排。第二章股指期货期现套利和指数简介:介绍了股指期货套利的基本模型,并对本文中要模拟的指数(HS30

11、0指数)做了简单的介绍。第三章股指期货指数模拟基本策略:介绍了现有的三大类指数模拟策略:全复制,抽样复制,ETF组合。并指出 了各自的不足。第四章聚类分析模拟策略的提出:首先用时间序列的观点来对待个股及指数的日收盘价序列。对其做了标准化 处理之后,先用聚类分析对抽样复制的方法做了改进。然后提出了将个股序列和 ETF序列相结合,用时间序列基于GARCH模型的聚类选样的方法,进一步优化 了指数模拟策略。第五章实验与讨论:通过实证分析来对比了已有的三种指数模拟策略的优缺点。并对聚类分析指 数模拟策略进行了检验,实验结果说明聚类分析能够选出更具有代表性的样本股 来模拟指数,并且也验证了个股和ETF组合

12、基于模型聚类选样的优越性。第六章全文总结与展望:本章对本课题的研究工作进行总结,指出了前进的方向。第二章股指期货期现套利和HS300指数简介2.1 股指期货期现套利介绍2.1.1 股指期货期现套利的模型框架简介什么是期现套利期现套利是指某种期货合约,当期货市场与现货市场在价格上出现差距时,利用两个市场的价格差距,低买高卖而获利。理论上,期货价格是商品未来的价 格,现货价格是商品目前的价格,按照经济学上的同一价格理论,两者间的差距,即“基差”(基差=现货价格一期货价格)应该等于该商品的持有成本。一旦基 差与持有成本偏离较大,就出现了期现套利的机会。其中,期货价格要高出现货 价格,并且超过用于交割

13、的各项成本,如运输成本、质检成本、仓储成本、开具 发票所增加的成本等等。期现套利主要包括正向买进期现套利和反向买进期现 套利两种。股指期货期现套利股票现货市场和股指期货市场紧密相连,根据股指期货的制度设计,期货价 格在合约到期日会与现货市场标的指数的价格相等。但实际行情中,期货指数价 格常受多种因素影响而偏离其合理的理论价格与现货指数之间的价格差距往 往出现过大或过小的情况,一旦这种偏离出现,就会带来在期货市场和现货市场 之间套利的机会,我们把这种跨越期市和现市同时进行交易的操作称之为期现 套利,也叫指数套利。期现套利有两种类型:正向基差套利和反向基差套利。正向基差套利:当现货指数被低估,某个

14、交割月份的期货合约被高估时,投资者可以卖出该 期货合约,同时根据指数权重买进成份股,建立套利头寸。当现货和期货价格差 4距趋于正常时,将期货合约平仓,同时卖出全部成份股,可以获得套利利润,这 种策略称为正向基差套利。一般来说,正向套利包括五个步骤:以市场利率借入资金,期现与期货合 约的到期期现相同;按照当前价格和各成份股权重买入沪深300成份股,模拟 沪深300指数现货;按照当前期货价格,卖出等份但不等值期货合约;按照 套利结束或期货到期时的现货价格,卖出持有的沪深300成份股;偿还贷款本 金和利息。如果期货价格高于其理论价格,那么执行上述五步骤则可以赚取无风 险利润。这当然还要考虑套利成本和

15、应对风险的对策。反向基差套利当现货指数被高估,某个交割月份的期货合约被低估时,如果允许融券,投 资者可以买入该期货合约,同时按照指数权重融券卖空成份股,建立套利头寸。当现货和期货价格趋于正常时,同时平仓,获利了结,这是反向基差套利。反向套利是正向套利的逆操作,它和正向套利一样也包括五个步骤:套利 开始时,在创新类券商处融券,具体为沪深300成份股,期现与期货合约的到期 期现相同,融券的到期期现最长不超过6个月。以当前价格,按照各自权重将 融入的沪深300成份股卖出,所得收入可以投资国债等以获得利息收入。按照 当前期货价格,买入等份但不等值期货合约。套利结束或期货到期时,收回国 债等的投资,获得

16、资金,按照当时价格,买入沪深300成份股。偿还融入的沪 深300成份股。期现套利的实质是对现货指数和期货指数的基差进行投机。基差的变动是可 以分析和预测的,分析正确可以获利,即使分析失误套利的风险也远比单向投机 的风险低。概括起来,指数套利策略的实施一般分为以下几个步骤:1、计算股指期货的理论价格,估计股指期货合约无套利区间的上下边界。无套利区间的上下界确定与许多参数有关,比如借贷利率为多少,市场流动性如 何,市场冲击成本,交易手续费等。确定参数后代入公式即可得到适合自身的无 5套利区间。由于套利机会转瞬即逝,所以无套利区间的计算应该及时完成,实际 操作中往往借助电脑程式化交易进行。2、判断是

17、否存在套利机会。通过监视期货合约价格走势并与无套利区间进 行比较,可以判断是否存在套利机会,只有当期货价格落在无套利区间上界之上 或下界之下时,才出现可操作的套利机会。3、确定交易规模,确定交易规模时应考虑预期的获利水平,交易规模大小 对市场有冲击影响,交易规模过大会造成冲击成本高,从而使套利利润降低。此 外,还应考虑融资和融券的可能性,由于我国目前还不能融券,所以反向基差套 利还难以实施。4、同时进行股指期货合约和股票交易。5、监控套利头寸的盈亏情况,确定是否进行加仓或减仓操作。2.1.2 股指期货定价模型介绍持有成本模型是CornellFrench(1983)借助一个无风险套利组合论证的

18、建构在完美市场假设下的定价模型。假设条件如下:(1)无税收和交易成本;(2)卖空股指成分股无限制;(3)借贷利率相同且维持不变;(4)无逐日盯市的保证金结算风险;(5)股利发放时间、数量确定,无股利不确定风险;(6)股指成分股可无限分割;(7)期货和现货头寸均持有到期货合同到期日。下面给出定价模型中的符号说明:S.:股份组合在t时刻的价格;ST:股份组合在T时刻的价格;Hr:T时刻到期的期货合约在t时刻的价格;6DtX:从t时刻到T时刻的股票组合的股利收入;r:市场无风险收益率。在无套利条件下,t时点买人指数期货耳I和买入指数现货成份股投资组合 持有到T时点,两种投资方式的未来收益现金流量应该

19、相等网,即ST-FtJ=+4_$x产)整理可得到股指期货合约的理论价格为:2.1.3 无套利区间的计算交易成本围绕股指期货理论价格可以形成无套利区间。先给出如下假设条件:(1)股票和期货市场手续费和其他费用单边收取;(2)卖空股指成分股无限制;(3)借贷利率相同且维持不变;(4)无逐日盯市的保证金结算风险:(5)股利发放时间、数量确定,无股利不确定风险;(6)股指成分股可无限分割;(7)期货和现货头寸均持有到期货合同到期日。下面给出形成无套利区间符号说明:Fl:存在反向套利时的股指期货价格;%:存在正向套利时的股指期货价格;F,t:T时刻到期的期货合约在。时刻的价格C/买入股指期货的交易成本;

20、C卖出股指期货的交易成本;csl:买入股份组合的交易成本;CM:卖出股指期货的交易成本;(2-1)(2-2)7下面给出建立无套利区间的过程:(1)如果,坨一为tnC.+C/那么就存在正向套利的机会。即可以在,时刻以的代价从股票市场购入现货组合;期货市场以此的价格卖出期货合约。(2)到T时刻,在股票市场和期货市场分别进行相反的操作,了解头寸。扣除交易费用:C角+C”,获利即为:坨一 fut ca-Csl(3)如果,那么就存在正向套利的机会。即可以在,时刻以其丁的代价从股票市场购入现货组合;期货市场以垃的价格卖出期货合约。(4)至IJT时刻,在股票市场和期货市场分别进行相反的操作,了解头寸。扣除交

21、易费用:5+C”获利即为:冗t一电一 Cr一C”由此:我们可以得到无套利机会的区间:c,一C 4 耳,t 4 冗一c#(2-3)股指期货市场价格进入该区间内就无法套利,一旦股指期货市场价格超出无 套利区间,就可以进行套利。2.L 4传统的指数模拟策略介绍股指期货的现货标的是股票指数。而股票指数并非实物。必须给出相应的股 票组合来表示股票指数这个标的,才能在股票市场和期货市场上同时进行双向买 卖,进行期现套利。而传统的股票指数的模拟策略可以大致分为样本全复制,样本抽样复制,8ETF组合这三种方式网。全复制就是按照构成股票指数的各成份股的权重,做到 投资组合和指数的结构一致。这一种方法交易操作复杂

22、并且不可能达到完全复 制的效果,总有不可克服的误差。样本抽样复制就是选择个别成份股来模拟整个 指数。这个方法,交易操作简单。但是传统方法的误差较大。而按照ETF组合 来模拟指数的策略,效果较好,模拟误差较小。但是因为ETF自身的特点,它 也有不可避免的缺点。2.2沪深300指数及其期货合约简介2.2.1 沪深300指数概述沪深300指数是由中证指数有限公司负责编制和维护的成份股票指数,该指 数是从沪深两市中选取300只股票作为其成份股,其样本市值约占整个股票市场 的六成左右,具有良好的代表性。沪深300指数也是我国第一只用以反映A股整 体市场表现的股票指数,有利于投资者观察和把握国内股票市场

23、的整体变化,具 有很好的投资参考价值。2.2.2 沪深300指数的编制沪深300指数是根据流动性和市值规模从沪深两市中选取300只A股股票 作为成份股,其样本空间为剔除如下股票后的A股股票:上市时间不足一个季度 的股票(大市值股票可以有例外)、暂停上市股票、经营状况异常或最近财务出 现严重亏损的股票、市场价格波动异常明显受操纵的股票、其他经专家委员会认 为应剔除的股票。沪深300指数成份股的选取方法为:对样本空间股票在最近一年(新股为 上市以来)的日均成交额进行排名,剔除排名后50%的股票,然后对剩余股票按 日均总市值进行排序,选取前300位的股票作为成份股。沪深300指数成份股的调整:指数根

24、据样本稳定性和动态跟踪的原则,每 半年进行一次调整,每次调整数量不超过10%o沪深300指数采用派氏加权法进行计算,其计算公式为:报告期指数二报告期成份股的调整市值/基日成份股的调整市值X1000调整市值二Z(市价X调整股本数)其中基日成份股的调整市值又称为除数。调整股本数采用分级靠档的方法进 行计算,比如,某股票流通股比例(流通股本/总股本)为7乐低于10%,则采用 流通股本为权数;某股票流通比例为35%,落在区间(30,40)内,对应的加权 比例为40%,则将总股本的40%作为权数。具体加权比例见下表:表2-1 HS300指数流通股权重计算流通 比例01010202030304040505

25、0606070708080100加权 比例流通 比例20304050607080100指数的修正:当沪深300指数的成份股发生替换或股本结构出现变化,或者 成份股市值由于非交易因素产生变动时,需要对指数进行修正,以保证指数价格 的连续性。修正方法采用“除数修正法”,即通过一定方法重新计算新的除数,并 用新除数计算指数价格,除数修正公式如下:修正前的市值/原除数=修正后的市值/新除数其中修正后的市值二修正前的市值+新增(减)市值。102.2.3 股指期货仿真交易合约文本期现套利是指某种期货合约,当期货市场与现货市场在价格上出现差距时,利用两个市场的价格差距,低买高卖而获利。而作为未来推出的HS3

26、00股指期货,下面便是它的股指期货仿真交易和约文 本(表22)。表22股指期货仿真交易合约文本股指期货仿真交易合约文本合约标的沪深300指数|代码_合约价值_合约乘数IF _沪深300期货指数点X乘数300元虚拟资金报价单位指数点 _ _ _ _最小变动价位0.2上指数点_ _合约月份每日价格游动X制当月、下月及随后两个季月熔断点土 6%,涨跌停板 10%*交易保症金_合约价值的10%.一 j单边手续费一交易时间上午:9:15 11.30,下午:13:00 15:15最后交易日交易时间 一上午:9:15 1L30,下不:13:0015:00._交割方式现金交割每日结算价格_最后结算价格 最后交

27、易日 最后结算日当日交易最后1小时的成交量加权平均价 _到期日最后2小时现货指数点的算术平均数合约到期月的第三个星期五合约到期月的第三个星期五*熔断机制是指在交易价格到达涨跌停板之前,合约报价在一段时间内只 能在熔断价格以内进行交易,沪深300股指期货的熔断点为前一交易日结算价格的 6%,当交易价格触及熔断点并持续一分钟时,熔断机制启动。在随后的十分钟内,卖买申报价格只能在6%之内,超过6%的申报会被拒绝。十分钟后,价格限制放 大到10%。沪深300股指期货的涨跌停板为前一交易日结算价格的土 10%。H第三章股指期货指数模拟基本策略3.1 全复制指数模拟策略应当说,利用全复制的方法创建现货组合

28、复制目标指数的过程是非常直接并 易于理解的。如果利用全复制方法来创建现货组合,那么目标指数的所有成分股 都应该被选入到现货组合中,在现货组合中,持有成分股的数量是按照它们在目 标指数中的标准权重进行资金配置。3.1.1 全复制指数模拟策略的成分股配置为了叙述方便,引入以下符号:耳,i L 2,应表示第,支成分股TZ.,N,表示在时刻臧分股i在目标指数中的权重R2,N,表示成分股R在时刻f的价格匕表示在时刻现货组合的资产G表示在时刻t现货组合的现金资产的价值;Et表示在时刻1现货组合中股票资产的价值Z”G%,表示成分股,的资金纥表示现货组合中应当持有成分股腑数量那么根据权重,可以得到凡,的计算公

29、式:Z“Bit-100*minInt(3-1)100*匕从而得到全复制的现货组合如下:300工人*片(3-2)123.1.2 全复制模拟策略对模拟误差根据目标指数的标准权重复制出的现货组合页存在跟踪误差。产生跟踪误差 的主要原因包括以下四个方面。首先,交易费用的问题。因为涉及到交易费用存在,使得实际可以配置的资 产少于总资产。交易费用越低,跟踪误差越小。其次,成分股的红利也会造成现货组合与目标指数之间的跟踪误差。我们称 这种跟踪误差为现金拖累造成的。所以说现货组合中的现金的比例越小,现金拖 累产生的误差就越小。第三,成分股的在融资与指数成分股调整也将导致现货组合与目标指数之间 产生误差。在上述

30、情况发生之后,所有成分股的权重将发生变化。这时,我们需 要根据新的权重,重新计算现货组合的持股比例。而现货组合过程中的调整,不 可避免的带来交易费用增加,从而加大了跟踪误差。第四,证券交易所的交易规则和资金配置过程中的四舍五入计算原则都使成 分股在现货组合中的权重与标准权重产生不一致,从而导致跟踪误差。3.2 传统的抽样复制指数模拟策略抽样复制方法是从目标指数的成份股中挑出一部分股票创建现货组合。但是 我们希望这个现货组合与目标指数之间的跟踪误差能够被有效控制。传统的抽样复制的方法有三种,简单随机抽样,排序抽样,分层抽样。因为简单随机抽样的效果太差本文便不做讨论。3.2.1 传统的排序抽样由于

31、可以用于对成份股进行分类和排序的指标太多,通常情况下,只采用权 重指标也可以取得不错的效果。它是一种较为简单和高效率的一种复制方法。在下面的讨论中,我们假设目标指数是以流通市值加权,成份股的挑选是选 择按权重排序排在前面的或者是满足设定的权重阈值的几只成份股。资金配置的 方法是依据被选中的成份股在指数中的流通市值权重作为资金配置比例,计算现 13货组合的持股数量并且创建现货组合。流通市值抽样复制方法背后隐含的原理是:目标指数的绝大部分收益率可以 被那些流通市值大的成份股收益所解释,所以现货组合管理人只需要通过买卖目 标指数中流通市值较大的股票就可以在很大程度上实现跟踪目标指数的目的。在 利用流

32、通市值排序复制方法创建现货组合时,以及在以后的现货组合后期管理 中,管理人买卖的股票都是流通市值较大的股票,这些股票的流动性风险相对较 少,减少了交易成本,从而减小了现货组合的跟踪误差。但是,在小流通市值股 票相对活跃并产生高收益率的时候,用大流通市值股票构建现货组合与目标指数 之间将会产生较大的跟踪误差。流通市值排序抽样的另一个弱点是:由于大流通 市值股票组合本身与目标指数之间存在一个明显的系统性偏差,从而使得流通市 值排序抽样复制方法并未达到理想的跟踪效果。在本文中将采用成份股权重和相关系数两项指标来对成份股进行排序抽样,之后资金配置采用最小二乘法来决定各自资金比例。3.2.2 传统的分层

33、抽样复制法为了充分利用已有的信息,我们将介绍分层抽样复制方法,分层抽样也称为 类型抽样,在实践中它比排序抽样更加实用。分层抽样方法的基本原理是首先根 据一个类型划分标准对目标指数成份股进行分类,通过分类把目标指数当中类型 比较接近的股票归为一组。尽量减少各组内成份股的差异程度,然后按照简单随 机抽样从各组中选出股票,最终形成现货组合。不难看出,用这种方法选出的股 票往往具有更强的代表性,因而可以缩小现货组合与目标指数之间的跟踪误差。根据具体应用,可用于划分股票类型的方法有很多种:如果按照股票的行业 划分,可以将股票分为能源、公用事业、机械制造等行业;如果按照流通市值划 分,可以分为大市值、中市

34、值、小市值股票等类别;如果按照股票业绩划分,可 分为增长型股票、价值型股票和周期性股票等。在本文中,将采用时间序列的聚类对成份股进行分层。然后在每一类中参考 权重和相关系数两项指标选出代表性样本。之后利用最小二乘法确定各样本股的 资金配置比例。1433 ETF组合指数模拟策略3.3.1 ETF组合配置的原理直接使用实用股指期货标的指数基金是最简单的一种模拟方法。它使投资者 避免了对指数成份股组合直接进行买卖交易而将现货的模拟环节交给基金公司 来执行,同时具有交易成本低拟合度高的特点。但是,这种方法也存在相当程度 的缺陷。首先,在业绩衡量方面,我国现有的两只沪深300股指基金的业绩衡量 标准是为

35、95%的沪深300指数收益率加5%的银行同业存款收益率,并非100%的跟踪。其次在市场容量和流动性方面,由于股指期货的指数基金的规模和份额 限制,使其不适合进行短期或大规模资金的期现套利活动。再次,在结算风险方 面,L0F基金的交割方式为T+2,这无疑会在较大程度上影响期现套利的效率。而ETF组合拟合度高,跟踪误差小。与普通的指数基金相比,ETF具有以下 优点:ETF基金相对于L0F,具有交易成本低,交易方便,交易效率高等特点。其次,ETF采用完全被动的指数化投资策略,管理费用较低,操作透明度较高,可以让投资这以较低的成本投资与一揽子标的指数成份股。因为沪深300指数涵盖了上海和深圳两个证券市

36、场,我们也可以使用上证 50ETF,上证180ETF和深证100ETF的组合来模拟HS300指数。这将是一个简单的 规划模型。设“mJiooj/iw分别代表HS300,上证50,深证100,上证18在t日的收益 率,设%Q,吗g,必耽分别代表HS300,上证50,深证100,上证180在投资组合中 的资金比例。TE表示跟踪误差。利用规划模型得到下面方程:I W 也0/+Wiooiooj+卬 18O18Oj 一凡 min史-si.叫+吗卸+/80 Hl(3一3)50 JlOO 180 求解出权重之后,便可以得到ETF组合模拟策略对应的现货组合:w50r504+%00rlqqj+必80Ggqj(3

37、4)153.3.2 ETF组合模拟策略的缺陷ETF和全复制方法有着相同的不可克服的缺陷。第一.交易费用的问题。因为涉及到交易费用存在,使得实际可以配置的资 产少于总资产。交易费用越低,跟踪误差越小。第二.HS300和ETF各自成分股的红利也会造成现货组合与目标指数之间的 跟踪误差。我们称这种跟踪误差为现金拖累造成的。所以说现货组合中的现金的 比例越小,现金拖累产生的误差就越小。第三.成分股的在融资与指数成分股调整也将导致现货组合与目标指数之间 产生误差。在上述情况发生之后,所有成分股的权重将发生变化。这时,我们需 要根据新的权重,重新计算现货组合的持股比例。而现货组合过程中的调整,不 可避免的

38、带来交易费用增加,从而加大了跟踪误差。16第四章聚类选样指数模拟策略的提出4,1 时间序列聚类算法简介人们对聚类问题的研究己经有相当长的历史。1963年,由Robert Sokal和 Peter Sneath 合著的Principles of Numerical Taxonomy一书对聚类的研究起了 很大的推动和促进作用。早在多年前,聚类分析就成为统计学的一个分支,主要 的研究方法是基于距离的聚类。在模式识别中。聚类分析常被称作无监督的学习 或者概念聚类,它是在不知道训练样本类标的情况下,依据对象自身的相似性把 一组对象划分成一系列有意义子集的描述型任务。从这个意义上看,聚类分析可 以这样定义

39、将一组数据分组,使其具有最大的组内相似性和最小的组间相似性,也就是说,最后的结果要达到不同聚类中的数据尽可能地不同,而同一聚类中的 数据尽可能地相似。目前,研究人员已经提出了大量的聚类算法,可以大致分为 五类。4.1.1 基于划分的方法(partitioning method)给定一个个对象或元组的数据库,基于划分的方法构建数据的上个划分,每个划分表示一个簇,并且上也就是说,它将数据划分为4个组,同时满 足要求:(1)每个组至少包含一个对象;(2)每个对象必须属于且只属于一个组。给定要构建的划分数目k,划分算法首先创建一个初始划分。然后采用一种 迭代的重新定位技术,尝试通过对象在划分间移动来

40、改进划分。一个好的划分的 一般准则是:在同一个类中的对象之间尽可能“接近”或者相关,而不同类中的 对象之间尽可能“远离”或者不同。为了达到全局最优,基于划分的聚类会要求穷举所有可能的划分。目前比较 流行的两个划分算法是:(1)人均值算法口支在该算法中,每个簇用该簇中对象的平均值来表示;(2)心中心点算法“5】,在该算法中,每个簇用接近聚类中心的一个对象来17表示。人均值算法是常用的聚类算法,算法描述如下:输入:簇的数目%和包含九个对象的数据库。输出:上个簇,是平方误差准则最小时的结果。方法:任意选择4个对象作为初始的簇的中心;Repeat:根据对象与各簇的中心的距离远近,将每个对象(重新)分配

41、给最类 似的簇,即分配给与其最近的那个中心所代表的簇,这样得到新的簇 中心;当对象分配完之后,更新簇的平均值,即计算每个簇中对象的平均值;Until簇的中心不再发生变化。k.均值算法的有效性来自该方法是平方误差准则下的最优值,平方误差准则 定义为:甯-I)这里的E是数据库中所有对象的平方误差总和,p是空间中的点,表示给定 的数据对象,叫是簇G的平均值,这个准则试图使生成的簇尽可能地紧凑和独 立。人均值算法尝试找出的划分是平方误差函数值最小的上个划分当结果簇是 密集的,而簇与簇之间区别明显时,它的效果较好。对处理大型数据集,该算法 是相对可伸缩的和高效率的,因为它的算法复杂度是。(成T),其中,

42、是所有对 象的数目,k是簇的数目,是迭代的次数。通常地,kn9且这个算 法经常以局部最优结束。但是,k均值算法只有在簇的平均值被定义的情况下才能使用,并且要求用 户必须事先给出k(要生成的簇的数目),这些被认为是该算法的缺点。另外k 均值算法不适合发现非凸面形状的簇,或者大小差别很大的簇。而且,它对于“噪 18声”和孤立点数据是敏感的,少量的该类数据能够对平均值产生极大的影响。4.1.2 层次的方法(hierarchical method)层次的方法对给定的数据对象集合进行层次的分解。一个层次的聚类方法将 数据对象组成一个聚类的树。根据层次分解的不同,层次聚类方法可以分为凝聚 的(agglo

43、merative)和分裂的(divisive)层次聚类。凝聚的层次聚类:这种自底向上的策略首先将每个对象作为一个簇,然后合 并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终止条 件被满足。绝大多数层次聚类方法属于这一类,它们只是在簇间相似度的定义上 有所不同。分裂的层次聚类:这种自顶向下的策略与凝聚的层次聚类相反,它首先将所 有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终止条件,例如达到了某个希望的簇数目,或者两个最近的簇之 间的距离超过了某个阚值。凝聚的层次聚类算法的步骤如下:设Cc,D.=玉/=L2,o若CcmC,则停止,否则,RE

44、PEAT:找最相近的两个类R和将乌和0合并:DjfUDj,删除R,Cc减去1。其中C是事先制定的聚类数目,的是样本的数目,Cc用来记录当前的分类 数目,当聚类C次后,迭代停止;如果C=l,则得到整个分类树,算法第三步 计算最相近的两个聚类,不同的类间距离度量,对聚类会有不同效果。常用的几 种距离度量包括:近点距离:忆物益股下一斗(4-2)远点距离:心”广期脑卜/(4一3)19平均距离:4.13 基于密度的方法(density-based method)绝大多数划分方法基于对象之间的距离进行聚类,这样的方法只能发现球状 的簇,而在发现任意形状的簇这个问题上遇到困难。随之提出基于密度的另一类 聚类

45、方法,其主要思想是:只要临近区域的密度(对象或数据点的数目)超过某 个阈值,就继续聚类。也就是说,对给定的类中的每个数据点,在一个给定范围 的区域内至少包含某个数目的点。这样的方法可以用来过滤“噪声”和孤立点数 据,发现任意形状的簇。DBSCAN是一个具有代表性的基于密度的聚类算法,它根据一个密度阈值 来控制簇的增长。OPTICS是另一个基于密度的算法,它为自动的和交互的聚类 分析计算一个聚类顺序。DBSCAN算法的主要处理步骤:(1)数据集中任取对象p;(2)若p的邻域内包含多于M的祗个样本点,则创建包含p的新聚类,循 环收集直接密度可达的对象。(3)聚类中再无新对象加入时,算法结束,否则转

46、DoDBSCAN算法可以发现任意形状的簇,并且对输入数据顺序不敏感,不用 事先指定聚类数目,缺点是对用户设置参数敏感,算法复杂度较高,通常情况下 算法复杂度为。(2),在数据库索引的前提下,算法复杂度为0(10g)。该算法将具有足够高密度的区域划分为簇,并可以在带有“噪声”的空间数 据库中发现任意形状的聚类。基于密度的簇是基于密度可达性的最大的密度相连 对象的集合,不包含在任何簇中的对象被认为是“噪声二4.1.4基于网格的方法(gridbased method)基于网格的方法把对象的空间量化为有限数目的单元,形成了一个网格结 20构。所有的聚类操作都在这个网格结构(即量化的空间)上进行。这种

47、方法的主 要优点是它的处理速度很快,其处理时间独立于数据对象的数目,只与量化空间 中每一维的单元数目有关。基于网格聚类算法有STING算法附和CLIQUE算法.STING算法是一个基于网格多分辨率的聚类方法,它将空间划分为方形单 元,不同层次的方形单元对应不同层次的分辨率,方形单元存放均值、方差、最 小值、最大值等统计信息。方法的优点是单元存放的统计信息与查询要求无关,网格结构有助于实现并行运算和增量更新,聚类后的查询复杂度仅与最底层的网 格数相关,缺点是所有的聚类形状是正方形,在构建一个父单元时没有考虑子女 与其相邻单元在空间中的相互关系0CLIQUE算法是将密度算法和网格算法结合在一起,对

48、于处理数据库中的高 维数据比较有效。CLIQUE算法的优点是能自动发现高维中所存在的密集聚类,对数据的输入 顺序不敏感,也不需要假设任何特定的数据分布,时间复杂性与输入数据量大小 呈线性关系,当数据维数发生变化时具有较好的可扩展性,缺点是追求方法简单 化的同时,降低了聚类的精度。4.13 基于模型的方法(model-based method)基于模型的方法为每个簇假定了一个模型,寻找数据对给定模型的最佳拟 合。一个基于模型的算法可能通过构建反映数据点空间分布的密度函数来定义聚 类。它也基于标准的统计数字自动决定聚类数目,考虑“噪声”数据或者孤立点,从而产生健壮的聚类方法。4.1.6聚类准则函数

49、聚类准则函数用来衡量对样本集的一种划分的结果好坏。设有样本集合 2 M 天32,,XJ,要划分成c个不相交的子集%,%,”无,每个子集代表一个 聚类,且同一个类中的样本比不同类中的样本更加相似。通过定义准则函数可以 将聚类问题明确表达出来,即要找到一种划分使得准则函数最优。21误差平方和准则误差平方和准则函数是一种简单但是应用很广泛的准则函数,人均值算法 中应用的就是这个准则函数。令表示子集中的样本的数量,令叫表示这些 样本的均值向量:叫0 一X(4-5)于是误差平方和准则定义为:小 2%-端 色-6)这个准则函数可以解释为,对于一个给定的聚类,均值向量风.是最能代 表中所有样本的一个向量(/

50、也称为聚类中心)一个好的聚类方法应该能够 使得每个子集中的所有向量与这个均值向量的“误差向量”(X-g)的长度平 方和最小。人的值取决于类别的数目和样本的分布情况,使得,最小的划分称 为最优划分,或者最小方差划分。散布准则为了对聚类的质量进行全面的描述和评价,我们通过定义一些散布矩阵引出 一些准则函数,它们不仅反映同类样本的聚集程度,而且也反映不同类之间的分 离程度。(1)定义第i个子类的散布矩阵为:娼Ct网是第i子类的均值向量。(47)(2)定义类内散布矩阵(其中c为类别总数):(4-8)22(3)定义类间的散布矩阵为:(4-9)式中:为.是第i类样本集中的样本数。m是总均值向量,即(4-1

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服