Friday 10 November 2017

Flytte Gjennomsnittet Seriekorrelasjon


Økonometrisk teoriSerial korrelasjon Det er tidspunkter, spesielt i tidsseriedata, at CLR-antakelsen av c o r r (t. T 1) 0, epsilon) 0 er ødelagt. Dette er kjent i økonometri som seriell korrelasjon eller autokorrelasjon. Dette betyr at c o r r (t. T 1) 0, epsilon) neq 0 og det er et mønster over feilvilkårene. Feilvilkårene distribueres ikke uavhengig over observasjonene og er ikke strengt tilfeldig. Eksempler på autokorrelasjon Rediger Når feilperioden er relatert til forrige feilperiode, kan den skrives i en algebraisk ligning. t er du autosorrelasjonskoeffisienten mellom de to forstyrrelsesbetingelsene, og du er forstyrrelsestiden for autokorrelasjonen. Dette er kjent som en autoregressiv prosess. 1 lt er r (t. T 1) lt 1, epsilon) lt1 U er nødvendig i ligningen fordi selv om feilperioden er mindre tilfeldig, har den fortsatt en liten tilfeldig effekt. Seriell korrelasjon av Nth Order Rediger Autoregressiv modell Rediger Første rekkefølge Autoregressiv Prosess, AR (1). Dette er kjent som den første ordens autoregresjon, på grunn av feilperioden bare avhengig av forrige feilperiode. nte rekkefølge Autoregressiv Prosess, AR (n). t 1 t 1 2 t 2 ntnut rho epsilon rho epsilon cdots rho epsilon u Moving-average modell Rediger Notasjonen MA (q) refererer til den bevegelige gjennomsnittlige bestillingsmodellen q: X tti 1 qiti mu varepsilon sum theta varepsilon, hvor 1 . q er parametrene til modellen, er forventningen til X t (antas ofte å være 0), og t. t 1. er igjen, hvite støyfeil. Den bevegelige gjennomsnittsmodellen er i hovedsak et finitivt impulsresponsfilter med litt ekstra tolkning plassert på den. Autoregressivemoving-gjennomsnittlig modell Rediger Notasjonen ARMA (s. Q) refererer til modellen med p autoregressive termer og q flytende gjennomsnitt. Denne modellen inneholder AR (p) og MA (q) - modellene, X t i t 1 p i X t i i 1 q i t i. cvarepsilon sum varphi X sumtheta varpsilon., Årsaker til autokorrelasjon Redigere c o r r (t 1) 0, epsilon) neq 0 Spatial autokorrelasjon oppstår når de to feilene er spesielt ogor geografisk relaterte. I enklere termer er de ved siden av hver. Eksempler: Byen St. Paul har en spike av kriminalitet, og så ansetter de ekstra politiet. Det følgende året fant de at kriminalitetsfrekvensen gikk betydelig ned. Utrolig, byen Minneapolis, som ikke hadde justert sin politistyrke, finner at de har en økning i forbrytelsesraten i samme periode. Merk: Denne typen autokorrelasjon skjer over tverrsnittsprøver. InertiaTime to Adjust Dette skjer ofte i Makro, tidsseriedata. Den amerikanske renten øker uventet, og dermed er det en tilhørende endring i valutakursene med andre land. Å oppnå en ny likevekt kan ta litt tid. Forlengede innflytelser Dette er igjen et makro, tidsserieutgave som omhandler økonomiske støt. Det er nå forventet at den amerikanske renten vil øke. De tilknyttede valutakursene vil sakte justere opp til innkallingen fra Federal Reserve og kan overskride likevekten. Data SmoothingManipulation Ved å bruke funksjoner til jevne data vil autokorrelasjon komme inn i forstyrrelsesvilkårene. Feilspørsmål En regresjon vil ofte vise tegn på autokorrelasjon når det utelates variable. Fordi den manglende uavhengige variabelen nå finnes i forstyrrelsesperioden, får vi en forstyrrelsesterm som ser ut som: t 2 X 2 ut beta X u når riktig spesifikasjon er Y t 0 1 X 1 2 X 2 ut beta beta X beta X u Konsekvenser av autokorrelasjon Rediger Hovedproblemet med autokorrelasjon er at det kan få en modell til å se bedre ut enn det egentlig er. Liste over konsekvenser Redigere koeffisienter er fortsatt objektive E (t) 0. c o v (X t. U t) 0) 0, cov (X, u) 0 Sann varians av økes, ved tilstedeværelse av autokorrelasjoner. Estimert varians av er mindre på grunn av autokorrelasjon (forspent nedover). En nedgang i s e ()) og en økning av t-statistikken, resulterer i at estimatoren ser mer nøyaktig ut enn den faktisk er. R blir oppblåst. Alle disse problemene fører til at hypotesetester blir ugyldige. Autokorrelasjon i data. 2 løp, men den virkelige OLS, som vi aldri hadde funnet, er et sted i midten. Testing for autokorrelasjon Redigere Selv om det ikke er avgjørende, kan man få et inntrykk ved å se en graf av den avhengige variabelen mot feilperioden (nemlig et gjenværende spredningsdiagram). Durbin-Watson-test: Anta at du har test H (0): 0 (ingen AC) mot H (1): gt 0 (en-tailed test) Teststatistikk DW (tt 1) ​​2 2 2 2 - epsilon ) 2-2rho Enhver verdi under D (L) (i DW-tabellen) avviser nullhypotesen og AC eksisterer. Enhver verdi mellom D (L) og D (W) etterlater oss uten slutt på AC. Enhver verdi som er større enn D (W) aksepterer nullhypotesen og AC eksisterer ikke. Merk, dette er en hale test. Å få den andre halen. Bruk 4 - DW som teststat instead. Autoregressive Integrated Moving Average ARIMA (p, d, q) Modeller for Time Series Analysis I det forrige settet av artikler (Deler 1. 2 og 3) gikk vi inn i betydelig detalj om AR ( p), MA (q) og ARMA (p, q) lineære tidsseriemodeller. Vi brukte disse modellene til å generere simulerte datasett, tilpassede modeller for å gjenopprette parametere og deretter anvende disse modellene på finansielle aksjer data. I denne artikkelen skal vi diskutere en utvidelse av ARMA-modellen, nemlig den autoregressive Integrated Moving Average-modellen, eller ARIMA (p, d, q) - modellen. Vi vil se at det er nødvendig å vurdere ARIMA-modellen når vi har ikke-stationære serier. Slike serier forekommer i nærvær av stokastiske trender. Rask oppskrift og neste trinn Hittil har vi vurdert følgende modeller (linkene tar deg til de aktuelle artiklene): Vi har stadig bygget opp vår forståelse av tidsserier med begreper som seriell korrelasjon, stasjonaritet, linearitet, residualer, korrelogrammer, simulering, montering, sesongmessighet, betinget heteroscedasticitet og hypotesetesting. Fra og med har vi ikke utført noen prognoser eller prognoser fra våre modeller og har derfor ikke hatt noen mekanisme for å produsere et handelssystem eller egenkapitalkurve. Når vi har studert ARIMA (i denne artikkelen), ARCH og GARCH (i de neste artiklene), vil vi være i stand til å bygge en grunnleggende langsiktig handelsstrategi basert på prognose for børsindeksavkastning. Til tross for det faktum at jeg har gått i detalj på modeller som vi vet, vil det i siste instans ikke ha stor ytelse (AR, MA, ARMA), er vi nå godt bevandret i prosessen med tidsseriemodellering. Dette betyr at når vi kommer til å studere nyere modeller (og selv de som nå er i forskningslitteraturen), vil vi ha en betydelig kunnskapsbase om å tegne, for å kunne evaluere disse modellene effektivt, i stedet for å behandle dem som en nøkkel resept eller svart boks. Enda viktigere vil det gi oss tillit til å utvide og endre dem på egen hånd og forstå hva vi gjør når vi gjør det. Id takk for at du har vært tålmodig så langt som det kan virke som at disse artiklene er langt borte fra den virkelige handlingen av faktisk handel. Imidlertid er sann kvantitativ handelsforskning forsiktig, målt og tar betydelig tid å komme seg til rette. Det er ingen hurtig løsning eller få rik ordning i kvant handel. Var veldig nær klar til å vurdere vår første handelsmodell, som vil være en blanding av ARIMA og GARCH, så det er viktig at vi bruker litt tid på å forstå ARIMA-modellen godt. Når vi har bygget vår første handelsmodell, skal vi vurdere mer avanserte modeller som langminneprosesser, state-space-modeller (dvs. Kalman Filter) og Vector Autoregressive (VAR) - modeller, som vil lede oss til andre, mer sofistikerte, handelsstrategier. Autoregressive Integrated Moving Average (ARIMA) Modeller av rekkefølge p, d, q ARIMA-modeller brukes fordi de kan redusere en ikke-stationær serie til en stasjonær serie ved hjelp av en sekvens av differenseringstrinn. Vi kan huske fra artikkelen om hvit støy og tilfeldige turer. Hvis vi bruker forskjelloperatøren til en tilfeldig walk-serie (en ikke-stationær serie), står vi igjen med hvit støy (en stasjonær serie): begynn nabla xt xt - x wt slutten ARIMA utfører i hovedsak denne funksjonen, men gjør det gjentatte ganger, d ganger, for å redusere en ikke-stationær serie til en stasjonær en. For å håndtere andre former for ikke-stasjonærhet utover stokastiske trender, kan flere modeller benyttes. Sesongmessige effekter (som de som oppstår i råvarepriser) kan løses med sesongbaserte ARIMA-modellen (SARIMA), men vi vil ikke diskutere SARIMA mye i denne serien. Betingede heteroscedastiske effekter (som med volatilitetsklynging i aksjeindekser) kan håndteres med ARCHGARCH. I denne artikkelen vurderer vi ikke-stationære serier med stokastiske trender og passer ARIMA-modeller til disse serien. Vi vil også endelig produsere prognoser for vår finansielle serie. Definisjoner Før vi definerer ARIMA-prosesser, må vi diskutere konseptet med en integrert serie: Integrerte rekkefølgen d En tidsserie er integrert i ordre d. I (d), hvis: begynn nablad xt wt end Det er, hvis vi skiller seriens d ganger, mottar vi en diskret hvit støyserie. Alternativt, ved å bruke Backward Shift Operator er en liknende betingelse: Nå som vi har definert en integrert serie, kan vi definere ARIMA-prosessen selv: Autoregressiv Integrert Moving Average Modell av rekkefølge p, d, q En tidsserie er en autoregressiv integrert glidende gjennomsnittlig modell av rekkefølgen p, d, q. ARIMA (p, d, q). hvis nablad xt er et autoregressivt glidende gjennomsnitt av orden p, q, ARMA (p, q). Det vil si at hvis serien er differenced d ganger, og det følger en ARMA (p, q) prosess, så er det en ARIMA (p, d, q) serie. Hvis vi bruker den polynomiske notasjonen fra del 1 og del 2 i ARMA-serien, kan en ARIMA (p, d, q) prosess skrives i forhold til bakoverskiftoperatøren. : Hvor wt er en diskret hvit støyserie. Det er noen poeng å merke seg om disse definisjonene. Siden tilfeldig gange er gitt med xt x wt kan det ses at jeg (1) er en annen representasjon, siden nabla1 xt wt. Hvis vi mistenker en ikke-lineær trend, kan vi muligens bruke gjentatte differensier (dvs. gt 1) for å redusere en serie til stasjonær hvit støy. I R kan vi bruke diff-kommandoen med flere parametere, f. eks. diff (x, d3) for å utføre gjentatte forskjeller. Simulering, korrelogram og modellmontering Siden vi allerede har benyttet arima. sim-kommandoen for å simulere en ARMA (p, q) prosess, vil følgende prosedyre være lik den som ble utført i del 3 av ARMA-serien. Den største forskjellen er at vi nå skal sette d1, det vil si, vi vil produsere en ikke-stationær tidsserie med en stokastisk trending komponent. Som før vil vi passe en ARIMA-modell til våre simulerte data, forsøke å gjenopprette parametrene, opprette konfidensintervaller for disse parametrene, produsere et korrelogram av rester av den monterte modellen og til slutt utføre en Ljung-Box-test for å fastslå om vi har en god passform. Vi skal simulere en ARIMA (1,1,1) modell, med den autoregressive koeffisienten alpha0.6 og den bevegelige gjennomsnittlige koeffisienten beta-0.5. Her er R-koden for å simulere og plotte en slik serie: Nå som vi har vår simulerte serie, skal vi prøve å passe en ARIMA (1,1,1) modell til den. Siden vi kjenner ordren, vil vi bare angi den i passformen: Forventningsintervallene beregnes som: Begge parameterestimatene faller innenfor konfidensintervallene og ligger nær de sanne parameterverdiene for den simulerte ARIMA-serien. Derfor bør vi ikke bli overrasket over at residuene ser ut som en realisering av diskret hvit støy. Til slutt kan vi kjøre en Ljung-Box-test for å gi statistisk bevis på en god form: Vi kan se at p-verdien er betydelig større enn 0,05 og som sådan kan vi si at det er sterke bevis for at diskret hvit støy er en god passform til resterne. Derfor er modellen ARIMA (1,1,1) en god passform, som forventet. Finansdata og prognoser I denne delen skal vi passe ARIMA-modeller til Amazon, Inc. (AMZN) og SampP500 US Equity Index (GPSC, i Yahoo Finance). Vi vil ta i bruk prognosebiblioteket, skrevet av Rob J Hyndman. Lar oss gå videre og installere biblioteket i R: Nå kan vi bruke quantmod til å laste ned Amazonas daglige prisserie fra begynnelsen av 2013. Siden vi allerede har tatt de første rekkefølgeforskjellene i serien, har ARIMA passet utført snart vilje ikke krever d gt 0 for den integrerte komponenten: Som i del 3 av ARMA-serien, går vi nå gjennom en kombinasjon av p, d og q for å finne den optimale modellen ARIMA (p, d, q). Med optimal mener vi ordrekombinasjonen som minimerer Akaike Information Criterion (AIC): Vi ser at en rekkefølge av p4, d0, q4 ble valgt. Spesielt d0, som vi allerede har tatt førstegangsforskjeller over: Hvis vi plotter korrelogrammet av residualene, kan vi se om vi har bevis for en diskret hvit støyserie: Det er to signifikante topper, nemlig på k15 og k21, selv om vi burde Forvente å se statistisk signifikante topper bare på grunn av prøvetrykkvariasjon 5 av tiden. Kan utføre en Ljung-Box-test (se forrige artikkel) og se om vi har bevis for god passform: Som vi ser, er p-verdien større enn 0,05 og så har vi bevis for en god passform på 95-nivået. Vi kan nå bruke prognose-kommandoen fra prognosebiblioteket for å kunne forutse 25 dager fremover for returserien til Amazon: Vi kan se punktprognosene for de neste 25 dagene med 95 (mørkeblå) og 99 (lyseblå) feilbånd . Vi vil bruke disse prognosene i vår første gangs handelsstrategi når vi kommer til å kombinere ARIMA og GARCH. Lar utføre samme prosedyre for SampP500. For det første henter vi dataene fra quantmod og konverterer den til en daglig logg returneringsstrøm: Vi passer på en ARIMA-modell ved å løse over verdiene p, d og q: AIC forteller oss at den beste modellen er ARIMA (2,0, 1) modell. Merk igjen at d0, da vi allerede har tatt første rekkefølgeforskjeller i serien: Vi kan plotte resterne av den monterte modellen for å se om vi har bevis på diskret hvit støy: Korrelogrammet ser lovende ut, så neste skritt er å løpe Ljung-Box-testen og bekreft at vi har en god modellpasning: Siden p-verdien er større enn 0,05, har vi bevis på en god modellpassform. Hvorfor er det at i den forrige artikkelen viste vår Ljung-Box-test for SampP500 at ARMA (3,3) var dårlig egnet for den daglige loggen returnerer Legg merke til at jeg bevisst trunker SampP500 dataene for å starte fra 2013 og fremover i denne artikkelen , som praktisk utelukker de volatile perioder rundt 2007-2008. Derfor har vi utelatt en stor del av SampP500 hvor vi hadde for stor volatilitetsklynging. Dette påvirker seriell korrelasjon av serien og har følgelig effekten av at serien ser ut til å være mer stasjonær enn den har vært i det siste. Dette er et veldig viktig punkt. Når vi analyserer tidsserier, må vi være svært forsiktige med betinget heteroscedastiske serier, som aksjemarkedsindekser. I kvantitativ finans er det ofte kjent som regimeringsdetektering å prøve å bestemme perioder med ulik volatilitet. Det er en av de vanskeligere oppgavene å oppnå. Nå drøft dette punktet i lengden i neste artikkel når vi kommer til å vurdere ARCH og GARCH-modellene. La oss nå plotte en prognose for de neste 25 dagene av SampP500 daglige logg returnerer: Nå som vi har muligheten til å passe og prognose modeller som ARIMA, var svært nær å kunne opprette strategiske indikatorer for handel. Neste trinn I neste artikkel skal vi se på Generalized Autoregressive Conditional Heteroscedasticity (GARCH) - modellen og bruke den til å forklare mer av seriell korrelasjon i enkelte aksjer og aksjeindeksserier. Når vi har diskutert GARCH, vil vi være i stand til å kombinere det med ARIMA-modellen og skape signalindikatorer og dermed en grunnleggende kvantitativ handelsstrategi. Bare Komme i gang med kvantitativ TradingAutoregressive Moving Gjennomsnittlig ARMA (p, q) Modeller for Time Series Analysis - Del 3 Dette er det tredje og siste innlegget i miniserien på AROR-modeller for tidsserier. Weve introduserte autoregressive modeller og Moving Average-modeller i de to tidligere artiklene. Nå er det på tide å kombinere dem for å produsere en mer sofistikert modell. Til slutt vil dette lede oss til ARIMA - og GARCH-modellene som gjør at vi kan forutsi avkastning og prognosevolatilitet. Disse modellene vil danne grunnlag for handelssignaler og risikostyringsteknikker. Hvis du har lest del 1 og del 2, vil du ha sett at vi pleier å følge et mønster for vår analyse av en tidsseriemodell. Jeg gjentar det kort her: Begrunnelse - Hvorfor er vi interessert i denne spesifikke modellen Definisjon - En matematisk definisjon for å redusere tvetydighet. Korrelogram - Plotting a sample correlogram for å visualisere en modellens oppførsel. Simulering og montering - Tilpasning av modellen til simuleringer, for å sikre at vi har forstått modellen riktig. Real Financial Data - Bruk modellen til ekte historiske eiendomspriser. Prediksjon - Varsle etterfølgende verdier for å bygge handelssignaler eller filtre. For å følge denne artikkelen er det tilrådelig å ta en titt på tidligere artikler om tidsserier. De kan alle bli funnet her. Bayesian Information Criterion I del 1 av denne artikkelserien så vi på Akaike Information Criterion (AIC) som et middel til å hjelpe oss å velge mellom separate beste tidsseriemodeller. Et nært beslektet verktøy er Bayesian Information Criterion (BIC). I hovedsak har den lignende oppførsel til AIC ved at den straffer modeller for å ha for mange parametere. Dette kan føre til overfitting. Forskjellen mellom BIC og AIC er at BIC er strengere med straffen for ytterligere parametere. Bayesian Information Criterion Hvis vi tar sannsynligheten for en statistisk modell, som har k parametere, og L maksimerer sannsynligheten. da er Bayesian Information Criterion gitt av: Hvor n er antall datapunkter i tidsseriene. Vi bruker AIC og BIC nedenfor når du velger passende ARMA (p, q) modeller. Ljung-Box Test I del 1 av denne artikkelen ser serien Rajan nevnt i Disqus på at Ljung-Box-testen var mer hensiktsmessig enn å bruke Akaike-informasjonskriteriet for Bayesian Information Criterion ved å avgjøre om en ARMA-modell var en god passform til en tid serie. Ljung-Box-testen er en klassisk hypotesetest som er laget for å teste om et sett av autokorrelasjoner av en tilpasset tidsseriemodell er vesentlig forskjellig fra null. Testen tester ikke hvert enkelt lag for tilfeldighet, men tester tilfeldigvis over en gruppe lags. Ljung-Box Test Vi definerer nullhypotesen som: Tidsseriedataene ved hvert lag er i. i.d .. det vil si at korrelasjonene mellom populasjonsserieverdiene er null. Vi definerer den alternative hypotesen som: Tidsseriedataene er ikke i. i.d. og har seriell korrelasjon. Vi beregner følgende teststatistikk. Q: Hvor n er lengden på tidsserieprøven, er h k eksamensautokorrelasjonen ved lag k og h er antall lags under testen. Beslutningsregelen om å nullstille nullhypotesen er å sjekke om Q gt chi2, for en chi-kvadrert fordeling med h grader av frihet ved 100 (1-alfa) prosentilen. Selv om detaljene i testen kan virke litt komplekse, kan vi faktisk bruke R for å beregne testen for oss, forenkle prosedyren noe. Autogressive Moving Average (ARMA) Modeller av rekkefølge p, q Nå som vi diskuterte BIC og Ljung-Box testen, var klare til å diskutere vår første blandede modell, nemlig det autoregressive Moving Average av ordre p, q eller ARMA (p, q). Hittil har vi vurdert autoregressive prosesser og bevegelige gjennomsnittsprosesser. Den tidligere modellen vurderer sin egen tidligere oppførsel som innganger for modellen og som et slikt forsøk på å fange markedsdeltagende effekter, som for eksempel momentum og gjennombrudd i aksjehandel. Sistnevnte modell brukes til å karakterisere sjokkinformasjon til en serie, for eksempel en overraskende inntektsmeddelelse eller uventet hendelse (for eksempel BP Deepwater Horizon oljeutslipp). Derfor forsøker en ARMA-modell å fange begge disse aspektene når man modellerer økonomiske tidsserier. Merk at en ARMA-modell ikke tar hensyn til volatilitetsklynging, et sentralt empirisk fenomen i mange økonomiske tidsserier. Det er ikke en betinget heteroscedastisk modell. For det må vi vente på ARCH og GARCH-modellene. Definisjon ARMA (p, q) - modellen er en lineær kombinasjon av to lineære modeller, og er dermed i seg selv likevel lineær: Autoregressiv Flytende Gjennomsnitt Modell av rekkefølge p, q En tidsseriemodell, er en autoregressiv glidende gjennomsnittsmodell av rekkefølge p, q . ARMA (p, q), hvis: start xt alfa1 x alfa2 x ldots wt beta1 w beta2 w ldots betaq w ende Hvor er hvit støy med E (wt) 0 og varians sigma2. Hvis vi vurderer Backward Shift Operator. (se en tidligere artikkel) kan vi omskrive ovenstående som en funksjon theta og phi av: Vi kan rett og slett se det ved å sette p neq 0 og q0 vi gjenoppretter AR (p) modellen. På samme måte hvis vi setter p 0 og q neq 0 gjenoppretter vi MA (q) modellen. En av hovedtrekkene til ARMA-modellen er at den er parsimonisk og overflødig i sine parametere. Det vil si at en ARMA-modell ofte krever færre parametere enn en AR (p) eller MA (q) - modell alene. I tillegg om vi skriver om ligningen i form av BSO, kan theta og phi-polynomene noen ganger dele en felles faktor, og dermed føre til en enklere modell. Simuleringer og korrelogrammer Som med de autoregressive og bevegelige gjennomsnittsmodellene vil vi nå simulere ulike ARMA-serier og deretter prøve å passe ARMA-modeller til disse realisasjonene. Vi bærer dette ut fordi vi vil sikre at vi forstår monteringsprosedyren, inkludert hvordan du beregner konfidensintervaller for modellene, samt sørge for at prosedyren faktisk gjenoppretter rimelige estimater for de opprinnelige ARMA parametrene. I del 1 og del 2 konstruerte vi manuelt AR - og MA-serien ved å tegne N-prøver fra en normalfordeling og deretter lage den spesifikke tidsseriemodellen ved hjelp av lags av disse prøvene. Det er imidlertid en enklere måte å simulere AR, MA, ARMA og til og med ARIMA-data, ganske enkelt ved å bruke arima. sim-metoden i R. Lets starte med den enkleste mulige ikke-trivielle ARMA-modellen, nemlig ARMA (1,1 ) modell. Det vil si en autoregressiv bestillingsmodell kombinert med en bevegelig gjennomsnittsmodell av ordre en. En slik modell har bare to koeffisienter, alfa og beta, som representerer de første lagene av tidsseriene selv og de støt hvite lydbetingelsene. En slik modell er gitt av: Vi må spesifisere koeffisientene før simulering. La oss ta alfa 0,5 og beta -0,5: Utgangen er som følger: Lar vi også plotte korrelogrammet: Vi kan se at det ikke er noen signifikant autokorrelasjon, som kan forventes fra en ARMA (1,1) modell. Endelig kan vi prøve å bestemme koeffisientene og deres standardfeil ved hjelp av arima-funksjonen: Vi kan beregne konfidensintervallene for hver parameter ved hjelp av standardfeilene: Forvissingsintervallene inneholder de sanne parameterverdiene i begge tilfeller, men vi bør merke at 95 konfidensintervaller er svært brede (en konsekvens av de rimelig store standardfeilene). La oss nå prøve en ARMA (2,2) modell. Det er en AR (2) modell kombinert med en MA (2) modell. Vi må spesifisere fire parametre for denne modellen: alpha1, alpha2, beta1 og beta2. Lar oss ta alpha1 0.5, alpha2-0.25 beta10.5 og beta2-0.3: Utgangen av vår ARMA (2,2) modell er som følger: Og den tilsvarende autokorrelasjonen: Vi kan nå prøve å montere en ARMA (2,2) modell til dataene: Vi kan også beregne konfidensintervaller for hver parameter: Legg merke til at konfidensintervallene for koeffisientene for den bevegelige gjennomsnittskomponent (beta1 og beta2) ikke faktisk inneholder den opprinnelige parameterverdien. Dette skisserer faren for å forsøke å passe modeller til data, selv når vi kjenner de sanne parameterverdiene. For handelsformål trenger vi bare å ha en prediktiv kraft som overskrider sjansen og gir nok overskudd over transaksjonskostnadene for å være lønnsomt i på lang sikt. Nå som vi har sett noen eksempler på simulerte ARMA-modeller, trenger vi mekanisme for å velge verdiene p og q når de passer til modellene til ekte økonomiske data. Velge den beste ARMA-modellen (p, q) For å bestemme hvilken rekkefølge p, q av ARMA-modellen passer for en serie, må vi bruke AIC (eller BIC) på tvers av en undergruppe av verdier for p, q og Bruk deretter Ljung-Box-testen for å finne ut om en god passform har blitt oppnådd, for spesielle verdier av p, q. For å vise denne metoden skal vi for det første simulere en bestemt ARMA (p, q) prosess. Vi vil da gå over alle parvisverdier av p i og q inn og beregne AIC. Vi velger modellen med lavest AIC og kjører en Ljung-Box-test på residualene for å avgjøre om vi har oppnådd en god passform. La oss begynne med å simulere en ARMA (3,2) - serie: Vi skal nå opprette et objekt som er endelig for å lagre den beste modellen passer og laveste AIC verdi. Vi går over de forskjellige p, q-kombinasjonene og bruker det nåværende objektet til å lagre passformen til en ARMA (i, j) modell, for loopingvariablene i og j. Hvis den nåværende AIC er mindre enn noen tidligere beregnet AIC, setter vi den endelige AIC til denne nåværende verdien og velger den rekkefølgen. Ved avslutning av sløyfen har vi rekkefølgen på ARMA-modellen lagret i final. order og ARIMA (p, d, q) passer seg (med integrert d-komponenten satt til 0) lagret som final. arma: Lets utføre AIC , ordre og ARIMA-koeffisienter: Vi ser at den opprinnelige rekkefølgen på den simulerte ARMA-modellen ble gjenopprettet, nemlig med p3 og q2. Vi kan plotte corelogrammet av resterne av modellen for å se om de ser ut som en realisering av diskret hvit støy (DWN): Korelogrammet ser faktisk ut som en realisering av DWN. Endelig utfører vi Ljung-Box-testen for 20 lags for å bekrefte dette: Legg merke til at p-verdien er større enn 0,05, som sier at residualene er uavhengige på 95-nivået og dermed gir en ARMA (3,2) modell en God modell passform. Klart dette burde være tilfelle siden weve simulerte dataene selv. Dette er nettopp prosedyren vi skal bruke når vi kommer til å passe ARMA (p, q) modeller til SampP500-indeksen i følgende avsnitt. Finansdata Nå som vi har skissert prosedyren for å velge den optimale tidsseriemodellen for en simulert serie, er det ganske greit å bruke det til økonomiske data. For dette eksempelet skal vi igjen velge SampP500 US Equity Index. Lar deg laste ned de daglige sluttkursene ved hjelp av quantmod, og opprett deretter logg returneringsstrømmen: La oss utføre den samme monteringsprosedyren som for den simulerte ARMA-serien (3,2) ovenfor på loggen returnerer serien til SampP500 ved hjelp av AIC: Den beste monteringsmodellen har rekkefølge ARMA (3,3): Lar plotte gjenstander av den monterte modellen til SampP500 logg daglig returstrøm: Legg merke til at det er noen signifikante topper, spesielt ved høyere lag. Dette er tegn på dårlig form. Kan utføre en Ljung-Box-test for å se om vi har statistisk bevis for dette: Som vi mistenkte er p-verdien mindre enn 0,05, og som sådan kan vi ikke si at residualene er en realisering av diskret hvit støy. Derfor er det ytterligere autokorrelasjon i residualene som ikke forklares av den monterte ARMA-modellen (3,3). Neste trinn Som vi har diskutert hele tiden i denne artikkelserien, har vi sett bevis på betinget heteroscedasticitet (volatilitetsklynging) i SampP500-serien, spesielt i perioder rundt 2007-2008. Når vi bruker en GARCH-modell senere i artikkelserien, ser vi hvordan du eliminerer disse autokorrelasjonene. I praksis er ARMA-modeller vanligvis ikke gode tilpasninger for logg-aksjer returnerer. Vi må ta hensyn til betinget heteroscedasticitet og bruke en kombinasjon av ARIMA og GARCH. Den neste artikkelen vil vurdere ARIMA og vise hvordan den integrerte komponenten adskiller seg fra den ARMA-modellen vi har vurdert i denne artikkelen. Bare Komme i gang med Quantitative TradingAR-modellen: En autoregresjonsmodus er en regresjon av variabelen mot seg selv (tidligere verdier av prognosen variabel). En autoregressiv bestillingsmodell p, AR (p) kan skrives som y t c 1 y t 1 2 y t 2 p y t p e t. hvor c er en konstant og e t er hvit støy. MA-modell: I motsetning til AR-modellen bruker en bevegelig gjennomsnittsmodell tidligere prognosefeil i en regresjonslignende modell. En glidende gjennomsnittlig rekkefølge av rekkefølge q, MA (q) kan skrives som y t c e t e t 1 2 e t 2 q e t q. hvor det er hvit støy. I begge tilfeller er feilbegrepet hvit støy. Og fra formelen ovenfor kan vi tydelig se hvordan feilvilkårene modelleres forskjellig i de to modellene. I en AR-modell er de forsinkede verdiene for y t prediktorer. Og feilbegrepet e t i modellen er akkurat som feilbegrepet i en multiple lineær regresjon. I en MA-modell er fortiden feilene prediktorer. En ting å merke seg er at det er mulig å skrive en stasjonær AR (p) modell som en uendelig MA-modell, og en (inverterbar) MA (p) kan skrives som en uendelig AR. FYI, kan du finne noen detaljerte konseptbeskrivelser i www2.sasproceedingssugi28252-28.pdf og forholdet mellom stasjonær AR-modell og MA-modell i otexts. orgfpp84.

No comments:

Post a Comment