Durant molts anys, la gent ha predit condicions meteorològiques, esdeveniments econòmics i polítics i resultats esportius, recentment aquesta extensa llista s'ha omplert amb criptomonedes. Per predir esdeveniments versàtils, hi ha moltes maneres de desenvolupar previsions. Per exemple, la intuïció, les opinions d'experts, l'ús de resultats anteriors per comparar amb les estadístiques tradicionals i la previsió de sèries temporals són només un d'ells, mentre que el tipus de previsió més modern i precís amb una àmplia gamma d'aplicacions.
Mètode de sèrie temporal
Un mètode de sèrie temporal (TS) és un conjunt de dades que recull informació durant un període de temps. Hi ha mètodes especials per extreure aquest tipus:
- lineal i no lineal;
- paramètric i no paramètric;
- unidimensional i multidimensional.
Temps de previsióLa sèrie aporta un conjunt únic de capacitats per afrontar els reptes actuals. El modelatge es basa en l'aprenentatge per establir la força impulsora del canvi de dades. El procés prové de tendències a llarg termini, efectes estacionals o fluctuacions irregulars que són característiques del TS i que no es veuen en altres tipus d'anàlisi.
L'aprenentatge automàtic és una branca de la informàtica on els algorismes es compilen a partir de dades i inclouen xarxes neuronals artificials, aprenentatge profund, regles d'associació, arbres de decisió, aprenentatge de reforç i xarxes bayesianes. Una varietat d'algorismes ofereix opcions per resoldre problemes, i cadascun té els seus propis requisits i avantatges en termes d'entrada de dades, velocitat i precisió dels resultats. Aquestes, juntament amb la precisió de les prediccions finals, es ponderaran quan l'usuari decideixi quin algorisme funcionarà millor per a la situació que s'està estudiant.
La previsió de sèries temporals es basa en el camp de l'estadística, però ofereix nous enfocaments per a la modelització de problemes. El principal problema de l'aprenentatge automàtic i de les sèries temporals és el mateix: predir nous resultats a partir de dades conegudes anteriorment.
L'objectiu del model predictiu
TS és un conjunt de punts de dades recopilats a intervals regulars. S'analitzen per determinar una tendència a llarg termini, per predir el futur o per realitzar algun altre tipus d'anàlisi. Hi ha dues coses que fan que TS sigui diferent d'un problema de regressió normal:
- Depenen del temps. Tanel supòsit bàsic d'un model de regressió lineal que les observacions són independents no es compleix en aquest cas.
- A més d'una tendència creixent o decreixent, la majoria dels TS tenen algun tipus d'estacionalitat, és a dir, canvis específics per a un període de temps determinat.
L'objectiu d'un model de previsió de sèries temporals és oferir una previsió precisa a demanda. La sèrie temporal té el temps (t) com a variable independent i la variable dependent objectiu. En la majoria dels casos, la previsió és un resultat específic, per exemple, el preu de venda d'una casa, el resultat esportiu de la competició, els resultats de la negociació a la borsa. La predicció representa la mediana i la mitjana i inclou un interval de confiança que expressa un nivell de confiança en el rang del 80-95%. Quan es registren a intervals regulars, els processos s'anomenen sèries temporals i s'expressen de dues maneres:
- unidimensional amb un índex de temps que crea un ordre implícit;
- un conjunt amb dues dimensions: el temps amb una variable independent i una altra variable dependent.
La creació de funcions és una de les tasques més importants i que consumeixen temps en l'aprenentatge automàtic aplicat. Tanmateix, la previsió de sèries temporals no crea característiques, almenys no en el sentit tradicional. Això és especialment cert quan voleu predir el resultat diversos passos abans, i no només el valor següent.
Això no vol dir que les funcions estiguin completament desactivades. Només s'han d'utilitzar amb precaució pels motius següents:
- No està clar quin és el futur realels valors seran per a aquestes funcions.
- Si els objectes són predictibles i tenen alguns patrons, podeu crear un model predictiu per a cadascun d'ells.
No obstant això, tingueu en compte que l'ús de valors predictius com a característiques propagarà errors a la variable objectiu i generarà errors o prediccions esbiaixades.
Components de la sèrie temporal
La tendència existeix quan la sèrie augmenta, disminueix o es manté en un nivell constant al llarg del temps, de manera que es pren com a funció. L'estacionalitat fa referència a una propietat d'una sèrie temporal que mostra patrons periòdics que es repeteixen amb una freqüència constant (m), per exemple, m=12 significa que el patró es repeteix cada dotze mesos.
Les variables simulades semblants a l'estacionalitat es poden afegir com a funció binària. Podeu, per exemple, tenir en compte vacances, esdeveniments especials, campanyes de màrqueting, independentment de si el valor és estranger o no. Tanmateix, cal recordar que aquestes variables han de tenir certs patrons. Tanmateix, el nombre de dies es pot calcular fàcilment fins i tot per a períodes futurs i influir en les previsions de sèries temporals, especialment a l'àrea financera.
Els cicles són estacions que no tenen lloc a un ritme fix. Per exemple, els atributs de reproducció anual del linx del Canadà reflecteixen patrons estacionals i cíclics. No es repeteixen a intervals regulars i poden aparèixer encara que la freqüència sigui 1 (m=1).
Valors retardats -els valors retardats d'una variable es poden incloure com a predictors. Alguns models, com ARIMA, Vector Autoregression (VAR) o Autoregressive Neural Networks (NNAR), funcionen d'aquesta manera.
Els components de la variable d'interès són molt importants per a l'anàlisi i la predicció de sèries temporals, per entendre'n el comportament, els patrons i per poder seleccionar el model adequat.
Atributs del conjunt de dades
Potser estigueu acostumats a introduir milers, milions i milers de milions de punts de dades als models d'aprenentatge automàtic, però això no és necessari per a les sèries temporals. De fet, és possible treballar amb TS petits i mitjans, segons la freqüència i el tipus de variable, i això no és un inconvenient del mètode. A més, en realitat hi ha una sèrie d'avantatges d'aquest enfocament:
- Aquests conjunts d'informació correspondran a les capacitats d'un ordinador domèstic.
- En alguns casos, feu anàlisis i previsions de sèries temporals utilitzant tot el conjunt de dades, no només una mostra.
- La longitud TS és útil per crear gràfics que es puguin analitzar. Aquest és un punt molt important perquè els programadors confien en els gràfics en la fase d'anàlisi. Això no vol dir que no funcionin amb grans sèries temporals, però inicialment haurien de poder gestionar TS més petites.
- Qualsevol conjunt de dades que contingui un camp relacionat amb el temps es pot beneficiar de l'anàlisi i la previsió de sèries temporals. Tanmateix, si el programador té un conjunt de dades més gran, la base de dades (TSDB)pot ser més adequat.
Alguns d'aquests conjunts provenen d'esdeveniments registrats amb marca de temps, registres del sistema i dades financeres. Com que TSDB funciona de manera nativa amb sèries temporals, aquesta és una gran oportunitat per aplicar aquesta tècnica a conjunts de dades a gran escala.
Aprenentatge automàtic
L'aprenentatge automàtic (ML) pot superar els mètodes tradicionals de previsió de sèries temporals. Hi ha un munt d'estudis que comparen mètodes d'aprenentatge automàtic amb estadístiques més clàssiques sobre dades de TS. Les xarxes neuronals són una de les tecnologies que s'han investigat àmpliament i apliquen enfocaments de TS. Els mètodes d'aprenentatge automàtic lideren els rànquings per a la recollida de dades basada en sèries temporals. Aquests conjunts han demostrat ser efectius, superant els conjunts TS purs contra M3 o Kaggle.
MO té els seus propis problemes específics. El desenvolupament de funcions o la generació de nous predictors a partir d'un conjunt de dades és un pas important per a això i pot tenir un gran impacte en el rendiment i ser una manera necessària d'abordar els problemes de tendència i estacionalitat de les dades de TS. A més, alguns models tenen problemes amb com s'ajusten a les dades i, si no ho fan, és possible que es perdin la tendència principal.
Les sèries temporals i els enfocaments d'aprenentatge automàtic no haurien d'existir aïllats els uns dels altres. Es poden combinar per oferir els beneficis de cada enfocament. Els mètodes de previsió i l'anàlisi de sèries temporals fan una bona feina per descompondre les dades en dades de tendències i estacionals.elements. A continuació, aquesta anàlisi es pot utilitzar com a entrada per a un model de ML que tingui informació sobre tendències i estacionalitat al seu algorisme, donant el millor d'ambdós mons.
Comprendre l'enunciat del problema
Per exemple, considereu TS relacionats amb la previsió del nombre de passatgers d'un nou servei de tren d' alta velocitat. Per exemple, teniu 2 anys de dades (agost de 2016 - setembre de 2018) i amb aquestes dades cal predir el nombre de passatgers per als propers 7 mesos, tenint 2 anys de dades (2016-2018) a nivell horari amb el nombre de passatgers que viatgen, i cal estimar-ne el nombre en el futur.
Subconjunt de dades per a la previsió amb sèries temporals:
- Creació d'un fitxer de tren i prova per a la simulació.
- Els primers 14 mesos (agost de 2016 - octubre de 2017) s'utilitzen com a dades d'entrenament i els dos mesos següents (nov. 2017 - desembre de 2017) són dades de prova.
- Agrega el conjunt de dades diàriament.
Feu una visualització de dades per veure com canvien durant un període de temps.
Mètode de construcció de l'enfocament ingenu
La biblioteca utilitzada en aquest cas per a la predicció de TS és statsmodels. S'ha d'instal·lar abans d'aplicar qualsevol d'aquests enfocaments. Potser statsmodels ja està instal·lat a l'entorn Python, però no admet mètodespredicció, de manera que l'haureu de clonar des del dipòsit i instal·lar-lo des de la font.
Per a aquest exemple, vol dir que els preus dels viatges amb moneda són estables des del principi i durant tot el període de temps. Aquest mètode suposa que el següent punt esperat és igual a l'últim punt observat i s'anomena Aproximació ingenua.
Ara calculeu la desviació estàndard per provar la precisió del model al conjunt de dades de prova. A partir del valor RMSE i del gràfic anterior, podem concloure que Naive no és adequat per a opcions d' alta volatilitat, sinó que s'utilitza per a opcions estables.
Estil mitjà senzill
Per demostrar el mètode, es dibuixa un gràfic, suposant que l'eix Y representa el preu i l'eix X representa el temps (dies).
A partir d'això podem concloure que el preu augmenta i disminueix aleatòriament amb un petit marge, de manera que el valor mitjà es manté constant. En aquest cas, podeu predir el preu del període següent, similar a la mitjana de tots els darrers dies.
Aquest mètode de previsió amb la mitjana esperada dels punts observats anteriorment s'anomena mètode de mitjana simple.
En aquest cas, es prenen valors coneguts prèviament, es calcula la mitjana i es pren com a valor següent. Per descomptat, això no serà exacte, però està força a prop, i hi ha situacions en què aquest mètode funciona millor.
Segons els resultats que es mostren al gràfic, aquest mètode funciona millor quan el valor mitjà de cada període de temps es manté constant. Tot i que el mètode ingenu és millor que la mitjana, però no per a tots els conjunts de dades. Es recomana provar cada model pas a pas i veure si millora el resultat o no.
Model de mitjana mòbil
A partir d'aquest gràfic, podem concloure que els preus han augmentat diverses vegades en el passat per un ampli marge, però ara són estables. Per utilitzar el mètode de mitjana anterior, cal fer la mitjana de totes les dades anteriors. Els preus del període inicial influiran fortament en la previsió del període següent. Per tant, com a millora respecte a la mitjana simple, utilitzeu la mitjana dels preus només dels últims períodes de temps.
Aquesta tècnica de previsió s'anomena tècnica de mitjana mòbil, de vegades anomenada "finestra mòbil" de mida "n". Utilitzant un model senzill, es preveu el següent valor de TS per comprovar la precisió del mètode. Clarament Naive supera tant la mitjana com la mitjana mòbil per a aquest conjunt de dades.
Hi ha una variant de la previsió pel mètode de suavització exponencial simple. En el mètode de mitjana mòbil, les "n" observacions passades tenen una ponderació igual. En aquest cas, podeu trobar situacions en què cadascuna de les "n" passats afecti la previsió a la seva manera. Aquesta variació, que pondera les observacions anteriors de manera diferent, s'anomena mètodemitjana mòbil ponderada.
Extrapolació de patrons
Una de les propietats més importants necessàries per tenir en compte els algorismes de previsió de sèries temporals és la capacitat d'extrapolar patrons fora del domini de dades d'entrenament. Molts algorismes de ML no tenen aquesta capacitat, ja que solen limitar-se a una regió definida per les dades d'entrenament. Per tant, no són adequats per a TS, el propòsit del qual és projectar el resultat en el futur.
Una altra propietat important de l'algorisme TS és la possibilitat d'obtenir intervals de confiança. Tot i que aquesta és la propietat predeterminada dels models TS, la majoria dels models ML no tenen aquesta capacitat, ja que no es basen tots en distribucions estadístiques.
No us penseu que només s'utilitzen mètodes estadístics senzills per predir el TS. No és gens així. Hi ha molts enfocaments complexos que poden ser molt útils en casos especials. Heteroscedasticitat condicional autorregressiva generalitzada (GARCH), bayesiana i VAR són només alguns d'ells.
També hi ha models de xarxes neuronals que es poden aplicar a sèries temporals que utilitzen predictors retardats i poden gestionar funcions com l'autoregressió de xarxes neuronals (NNAR). Fins i tot hi ha models de sèries temporals manllevats d'aprenentatges complexos, especialment en la família de xarxes neuronals recurrents, com les xarxes LSTM i GRU.
Mètriques d'estimació i diagnòstic residual
Les mètriques de predicció més habituals sónrms significa, que molta gent utilitza per resoldre problemes de regressió:
- MAPE perquè és independent de l'escala i representa la relació entre errors i valors reals com a percentatge;
- MASE, que mostra el bon rendiment de la predicció en comparació amb la predicció mitjana ingènua.
Un cop s'ha adaptat un mètode de previsió, és important avaluar fins a quin punt és capaç de capturar els models. Tot i que les mètriques d'avaluació ajuden a determinar la proximitat dels valors als valors reals, no avaluen si el model s'adapta al TS. Les restes són una bona manera d'avaluar-ho. Com que el programador està intentant aplicar patrons TS, pot esperar que els errors es comportin com "soroll blanc" ja que representen alguna cosa que el model no pot capturar.
"Soroll blanc" ha de tenir les propietats següents:
- Residuals no correlacionats (Acf=0)
- Els residus segueixen una distribució normal amb mitjana zero (no esbiaixada) i variància constant.
- Si f alta alguna de les dues propietats, hi ha marge de millora en el model.
- La propietat de mitjana zero es pot provar fàcilment mitjançant la prova T.
- Les propietats de la normalitat i la variància constant es controlen visualment mitjançant un histograma de residus o una prova de normalitat univariada adequada.
Model ARIMA
ARIMA - Model de mitjana mòbil integrada autoregressiva, és un dels mètodes més populars utilitzats en la predicció de TS, principalmentmitjançant l'autocorrelació de dades per crear models d' alta qualitat.
Quan s'avaluen els coeficients ARIMA, la hipòtesi principal és que les dades són estacionàries. Això vol dir que la tendència i l'estacionalitat no poden afectar la variància. La qualitat del model es pot avaluar comparant la trama temporal dels valors reals amb els valors predits. Si les dues corbes són properes, es pot suposar que el model s'adapta al cas analitzat. Hauria de revelar qualsevol tendència i estacionalitat, si n'hi ha.
L'anàlisi dels residus hauria de mostrar si el model s'ajusta: els residus aleatoris signifiquen que és precís. L'ajustament d'ARIMA amb els paràmetres (0, 1, 1) donarà els mateixos resultats que el suavització exponencial, i l'ús dels paràmetres (0, 2, 2) donarà resultats de suavització exponencial doble.
Podeu accedir a la configuració d'ARIMA a Excel:
- Inicieu l'Excel.
- Cerca XL MINER a la barra d'eines.
- A la cinta, seleccioneu ARIMA al menú desplegable.
Resum de les capacitats del model ARIMA:
- ARIMA - Mitjana mòbil integrada autoregressiva.
- Model de previsió utilitzat en l'anàlisi de sèries temporals.
- Sintaxi del paràmetre ARIMA: ARIMA (p, d, q) on p=nombre de termes autoregressius, d=nombre de diferències estacionals i q=nombre de termes de mitjana mòbil.
Algorismes a SQL Server
Realitzar prediccions creuades és una de les coses importantscaracterístiques de les sèries temporals en la previsió de tasques financeres. Si s'utilitzen dues sèries relacionades, el model resultant es pot utilitzar per predir els resultats d'una sèrie en funció del comportament de les altres.
SQL Server 2008 té funcions noves i potents de sèries temporals per aprendre i utilitzar. L'eina té dades de TS de fàcil accés, una interfície fàcil d'utilitzar per simular i reproduir funcions d'algorisme i una finestra d'explicació amb un enllaç a les consultes DMX del servidor perquè pugueu entendre què passa dins.
Les sèries temporals del mercat són una àrea àmplia a la qual es poden aplicar models i algorismes d'aprenentatge profund. Els bancs, els corredors i els fons estan experimentant ara amb el seu desplegament d'anàlisi i previsió d'índexs, tipus de canvi, futurs, preus de criptomoneda, accions governamentals i molt més.
En la previsió de sèries temporals, la xarxa neuronal troba patrons previsibles estudiant les estructures i tendències dels mercats i dóna consells als comerciants. Aquestes xarxes també poden ajudar a detectar anomalies com ara màxims, mínims, canvis de tendència i canvis de nivell inesperats. Molts models d'intel·ligència artificial s'utilitzen per a les previsions financeres.