Analiza dhe parashikimi i serive kohore

Përmbajtje:

Analiza dhe parashikimi i serive kohore
Analiza dhe parashikimi i serive kohore
Anonim

Për shumë vite, njerëzit kanë parashikuar kushtet e motit, ngjarjet ekonomike dhe politike dhe rezultatet sportive, së fundmi kjo listë e gjerë është rimbushur me kriptovaluta. Për parashikimin e ngjarjeve të gjithanshme, ka shumë mënyra për të zhvilluar parashikime. Për shembull, intuita, opinionet e ekspertëve, përdorimi i rezultateve të kaluara për t'u krahasuar me statistikat tradicionale dhe parashikimi i serive kohore është vetëm një prej tyre, ndërsa lloji më modern dhe më i saktë i parashikimeve me një gamë të gjerë aplikimesh.

Metoda e serive kohore

Metoda e serive kohore
Metoda e serive kohore

Një metodë e serive kohore (TS) është një grup të dhënash që mbledh informacion për një periudhë kohore. Ka metoda speciale për nxjerrjen e këtij lloji:

  • lineare dhe jolineare;
  • parametrik dhe joparametrik;
  • njëdimensionale dhe shumëdimensionale.

Koha e parashikimitseritë sjellin me vete një grup unik aftësish për të përballuar sfidat e sotme. Modelimi mbështetet në të mësuarit për të vendosur forcën lëvizëse pas ndryshimit të të dhënave. Procesi vjen nga tendencat afatgjata, efektet sezonale ose luhatjet e parregullta që janë karakteristike për TS dhe nuk shihen në llojet e tjera të analizave.

Mësimi i makinerisë është një degë e shkencës kompjuterike ku algoritmet përpilohen nga të dhënat dhe përfshijnë rrjetet nervore artificiale, mësimin e thellë, rregullat e shoqërimit, pemët e vendimeve, të mësuarit përforcues dhe rrjetet Bayesian. Një shumëllojshmëri algoritmesh ofrojnë opsione për zgjidhjen e problemeve, dhe secili ka kërkesat dhe kompromiset e veta për sa i përket futjes së të dhënave, shpejtësisë dhe saktësisë së rezultateve. Këto, së bashku me saktësinë e parashikimeve përfundimtare, do të peshohen kur përdoruesi të vendosë se cili algoritëm do të funksionojë më mirë për situatën në studim.

Parashikimi i serive kohore merr hua nga fusha e statistikave, por jep qasje të reja për modelimin e problemeve. Problemi kryesor për mësimin e makinerive dhe seritë kohore është i njëjtë - të parashikohen rezultatet e reja bazuar në të dhënat e njohura më parë.

Objektivi i modelit parashikues

Qëllimi i modelit parashikues
Qëllimi i modelit parashikues

TS është një grup pikash të dhënash të mbledhura në intervale të rregullta. Ato analizohen për të përcaktuar një prirje afatgjatë, për të parashikuar të ardhmen ose për të kryer një lloj tjetër analize. Ka 2 gjëra që e bëjnë TS të ndryshme nga një problem normal regresioni:

  1. Ato varen nga koha. Kështu qësupozimi bazë i një modeli të regresionit linear që vëzhgimet janë të pavarura nuk vlen në këtë rast.
  2. Së bashku me një tendencë në rritje ose në rënie, shumica e TS kanë një formë sezonaliteti, d.m.th. ndryshime që janë specifike për një periudhë të caktuar kohe.

Qëllimi i një modeli të parashikimit të serive kohore është të japë një parashikim të saktë sipas kërkesës. Seria kohore ka kohën (t) si variabël të pavarur dhe variablin e varur objektiv. Në shumicën e rasteve, parashikimi është një rezultat specifik, për shembull, çmimi i shitjes së një shtëpie, rezultati sportiv i konkursit, rezultatet e tregtimit në bursë. Parashikimi përfaqëson mesataren dhe mesataren dhe përfshin një interval besimi që shpreh një nivel besimi në intervalin 80-95%. Kur ato regjistrohen në intervale të rregullta, proceset quhen seri kohore dhe shprehen në dy mënyra:

  • njëdimensionale me një indeks kohor që krijon një rend të nënkuptuar;
  • një grup me dy dimensione: koha me një ndryshore të pavarur dhe një variabël tjetër e varur.

Krijimi i veçorive është një nga detyrat më të rëndësishme dhe që kërkon shumë kohë në mësimin e aplikuar të makinerive. Megjithatë, parashikimi i serive kohore nuk krijon veçori, të paktën jo në kuptimin tradicional. Kjo është veçanërisht e vërtetë kur dëshironi të parashikoni rezultatin disa hapa përpara, dhe jo vetëm vlerën tjetër.

Kjo nuk do të thotë që veçoritë janë çaktivizuar plotësisht. Ato duhet të përdoren vetëm me kujdes për arsyet e mëposhtme:

  1. E paqartë se cila është e ardhmja realevlerat do të jenë për këto veçori.
  2. Nëse objektet janë të parashikueshëm dhe kanë disa modele, mund të ndërtoni një model parashikues për secilën prej tyre.

Megjithatë, kini parasysh se përdorimi i vlerave parashikuese si veçori do të përhapë gabimin në variablin e synuar dhe do të çojë në gabime ose parashikime të njëanshme.

Përbërësit e serive kohore

Komponentët e serive kohore
Komponentët e serive kohore

Trend ekziston kur seria rritet, zvogëlohet ose mbetet në një nivel konstant me kalimin e kohës, kështu që merret si funksion. Sezonaliteti i referohet një vetie të një serie kohore që shfaq modele periodike që përsëriten me një frekuencë konstante (m), për shembull, m=12 do të thotë se modeli përsëritet çdo dymbëdhjetë muaj.

Ndryshoret dummy të ngjashme me sezonalitetin mund të shtohen si funksion binar. Për shembull, mund të merrni parasysh festat, ngjarjet speciale, fushatat e marketingut, pavarësisht nëse vlera është e huaj apo jo. Sidoqoftë, duhet të mbani mend se këto variabla duhet të kenë modele të caktuara. Megjithatë, numri i ditëve mund të llogaritet lehtësisht edhe për periudhat e ardhshme dhe të ndikojë në parashikimin e serive kohore, veçanërisht në fushën financiare.

Ciklet janë stinë që nuk ndodhin me një normë fikse. Për shembull, atributet e riprodhimit vjetor të rrëqebullit të Kanadasë pasqyrojnë modele sezonale dhe ciklike. Ato nuk përsëriten në intervale të rregullta dhe mund të ndodhin edhe nëse frekuenca është 1 (m=1).

Vlerat e vonuara -vlerat e vonuara të një ndryshoreje mund të përfshihen si parashikues. Disa modele, të tilla si ARIMA, Autoregresioni Vektor (VAR) ose Rrjetet Neurale Autoregresive (NNAR), funksionojnë në këtë mënyrë.

Përbërësit e ndryshores së interesit janë shumë të rëndësishëm për analizën dhe parashikimin e serive kohore, për të kuptuar sjelljen, modelet e tyre dhe për të qenë në gjendje të zgjidhni modelin e duhur.

Atributet e grupit të të dhënave

Atributet e grupit të të dhënave
Atributet e grupit të të dhënave

Mund të jeni mësuar të futni mijëra, miliona dhe miliarda pika të dhënash në modelet e mësimit të makinerive, por kjo nuk kërkohet për seritë kohore. Në fakt, është e mundur të punohet me TS të vogla dhe të mesme, në varësi të frekuencës dhe llojit të ndryshores, dhe kjo nuk është një disavantazh i metodës. Për më tepër, ka në fakt një numër avantazhesh për këtë qasje:

  1. Grupe të tilla informacioni do të korrespondojnë me aftësitë e një kompjuteri në shtëpi.
  2. Në disa raste, kryeni analizën dhe parashikimin e serive kohore duke përdorur të gjithë grupin e të dhënave, jo vetëm një mostër.
  3. Gjatësia TS është e dobishme për krijimin e grafikëve që mund të analizohen. Kjo është një pikë shumë e rëndësishme sepse programuesit mbështeten në grafikë në fazën e analizës. Kjo nuk do të thotë se ata nuk punojnë me seri të mëdha kohore, por fillimisht duhet të jenë në gjendje të trajtojnë TS më të vogla.
  4. Çdo grup të dhënash që përmban një fushë të lidhur me kohën mund të përfitojë nga analiza dhe parashikimi i serive kohore. Megjithatë, nëse programuesi ka një grup më të madh të dhënash, DB (TSDB)mund të jetë më e përshtatshme.

Disa nga këto grupe vijnë nga ngjarje të regjistruara me vulën kohore, regjistrat e sistemit dhe të dhënat financiare. Meqenëse TSDB funksionon në mënyrë origjinale me seritë kohore, kjo është një mundësi e shkëlqyer për të aplikuar këtë teknikë në grupe të dhënash në shkallë të gjerë.

Mësim makine

Mësimi makinerik (ML) mund të tejkalojë metodat tradicionale të parashikimit të serive kohore. Ka një ton studimesh atje që krahasojnë metodat e mësimit të makinerive me metodat statistikore më klasike në të dhënat TS. Rrjetet nervore janë një nga teknologjitë që janë hulumtuar gjerësisht dhe aplikojnë qasjet TS. Metodat e mësimit të makinerisë udhëheqin renditjen për mbledhjen e të dhënave bazuar në seritë kohore. Këto grupe janë dëshmuar të jenë efikase, duke tejkaluar kompletet e pastërta TS kundrejt M3 ose Kaggle.

MO ka problemet e veta specifike. Zhvillimi i veçorive ose gjenerimi i parashikuesve të rinj nga një grup të dhënash është një hap i rëndësishëm për të dhe mund të ketë një ndikim të madh në performancën dhe të jetë një mënyrë e nevojshme për të adresuar çështjet e tendencës dhe sezonalitetit të të dhënave TS. Gjithashtu, disa modele kanë probleme me atë se sa mirë i përshtaten të dhënave dhe nëse nuk i përshtaten, mund të humbasin trendin kryesor.

Përqasjet e serive kohore dhe të mësimit të makinerive nuk duhet të ekzistojnë të izoluara nga njëra-tjetra. Ato mund të kombinohen së bashku për të dhënë përfitimet e secilës qasje. Metodat e parashikimit dhe analiza e serive kohore janë të mira në zbërthimin e të dhënave në tendenca dhe të dhëna sezonale.elementet. Kjo analizë mund të përdoret më pas si hyrje për një model ML që ka informacion mbi trendin dhe sezonalitetin në algoritmin e tij, duke dhënë më të mirën nga të dy botët.

Të kuptuarit e deklaratës së problemit

Për një shembull, merrni parasysh TS në lidhje me parashikimin e numrit të pasagjerëve në një shërbim të ri hekurudhor me shpejtësi të lartë. Për shembull, ju keni të dhëna për 2 vjet (gusht 2016 - shtator 2018) dhe me këto të dhëna duhet të parashikoni numrin e pasagjerëve për 7 muajt e ardhshëm, duke pasur të dhëna 2 vjet (2016-2018) në nivel orar me numri i pasagjerëve që udhëtojnë dhe është e nevojshme të vlerësohet numri i tyre në të ardhmen.

Nënbashkësi e të dhënave për parashikimin me seri kohore:

  1. Krijimi i një skedari treni dhe testimi për simulim.
  2. 14 muajt e parë (gusht 2016 - tetor 2017) përdoren si të dhëna trajnimi dhe 2 muajt e ardhshëm (nëntor 2017 - dhjetor 2017) janë të dhëna testimi.
  3. Përmbledh grupin e të dhënave në baza ditore.
Mbledhja e grupeve të të dhënave
Mbledhja e grupeve të të dhënave

Kryer vizualizimin e të dhënave për të parë se si ndryshojnë gjatë një periudhe kohore.

Vizualizimi i të dhënave
Vizualizimi i të dhënave

Metodë e ndërtimit me qasje naive

Biblioteka e përdorur në këtë rast për parashikimin e TS është statsmodels. Duhet të instalohet përpara se të zbatohet ndonjë nga këto qasje. Ndoshta statsmodels është instaluar tashmë në mjedisin Python, por nuk mbështet metodaparashikim, kështu që do t'ju duhet ta klononi nga depoja dhe ta instaloni nga burimi.

Sekuenca
Sekuenca

Për këtë shembull, do të thotë që çmimet e udhëtimit me monedhë janë të qëndrueshme që nga fillimi dhe gjatë gjithë periudhës kohore. Kjo metodë supozon se pika tjetër e pritur është e barabartë me pikën e fundit të vëzhguar dhe quhet Qasje Naive.

Metoda naive
Metoda naive

Tani llogaritni devijimin standard për të testuar saktësinë e modelit në grupin e të dhënave testuese. Nga vlera RMSE dhe grafiku i mësipërm, mund të konkludojmë se Naive nuk është i përshtatshëm për opsionet me paqëndrueshmëri të lartë, por përdoret për ato të qëndrueshme.

Stil i thjeshtë mesatar

Për të demonstruar metodën, vizatohet një grafik, duke supozuar se boshti Y përfaqëson çmimin dhe boshti X përfaqëson kohën (ditë).

Stil i thjeshtë mesatar
Stil i thjeshtë mesatar

Nga ai mund të konkludojmë se çmimi rritet dhe zvogëlohet rastësisht me një diferencë të vogël, në mënyrë që vlera mesatare të mbetet konstante. Në këtë rast, ju mund të parashikoni çmimin e periudhës së ardhshme, i ngjashëm me mesataren për të gjitha ditët e kaluara.

Kjo metodë e parashikimit me mesataren e pritur të pikave të vëzhguara më parë quhet metoda mesatare e thjeshtë.

Në këtë rast, merren vlerat e njohura më parë, llogaritet mesatarja dhe merret si vlera vijuese. Sigurisht, kjo nuk do të jetë e saktë, por është shumë afër dhe ka situata ku kjo metodë funksionon më mirë.

E mesme e thjeshtëmetodë
E mesme e thjeshtëmetodë

Bazuar në rezultatet e shfaqura në grafik, kjo metodë funksionon më mirë kur vlera mesatare për çdo periudhë kohore mbetet konstante. Megjithëse metoda naive është më e mirë se mesatarja, por jo për të gjitha grupet e të dhënave. Rekomandohet të provoni çdo model hap pas hapi dhe të shihni nëse ai përmirëson rezultatin apo jo.

Model mesatar në lëvizje

Modeli mesatar në lëvizje
Modeli mesatar në lëvizje

Bazuar në këtë grafik, mund të konkludojmë se çmimet janë rritur disa herë në të kaluarën me një diferencë të gjerë, por tani janë të qëndrueshme. Për të përdorur metodën e mëparshme të mesatares, duhet të merrni mesataren e të gjitha të dhënave të mëparshme. Çmimet e periudhës fillestare do të ndikojnë fuqishëm në parashikimin e periudhës së ardhshme. Prandaj, si një përmirësim mbi mesataren e thjeshtë, merrni mesataren e çmimeve vetëm për periudhat e fundit kohore.

Kjo teknikë e parashikimit quhet teknika mesatare lëvizëse, nganjëherë referuar si një "dritare lëvizëse" e madhësisë "n". Duke përdorur një model të thjeshtë, vlera e radhës në TS parashikohet për të kontrolluar saktësinë e metodës. Qartë Naive ka performancë më të mirë si mesataren ashtu edhe mesataren lëvizëse për këtë grup të dhënash.

Ekziston një variant i parashikimit me metodën e zbutjes së thjeshtë eksponenciale. Në metodën e mesatares lëvizëse, vëzhgimet e kaluara "n" janë ponderuar në mënyrë të barabartë. Në këtë rast, mund të hasni situata ku secila nga 'n' e kaluara ndikon në parashikimin në mënyrën e vet. Ky variacion, i cili peshon ndryshe vëzhgimet e kaluara, quhet metodëmesatare lëvizëse e ponderuar.

Ekstrapolimi i modeleve

Një nga veçoritë më të rëndësishme të nevojshme për të marrë në konsideratë algoritmet e parashikimit të serive kohore është aftësia për të ekstrapoluar modelet jashtë domenit të të dhënave të trajnimit. Shumë algoritme ML nuk e kanë këtë aftësi pasi ato priren të kufizohen në një rajon që përcaktohet nga të dhënat e trajnimit. Prandaj, ato nuk janë të përshtatshme për TS, qëllimi i të cilave është të projektojë rezultatin në të ardhmen.

Një tjetër veti e rëndësishme e algoritmit TS është mundësia e marrjes së intervaleve të besimit. Ndërsa kjo është vetia e paracaktuar për modelet TS, shumica e modeleve ML nuk e kanë këtë aftësi pasi nuk janë të gjitha të bazuara në shpërndarje statistikore.

Mos mendoni se vetëm metoda të thjeshta statistikore përdoren për të parashikuar TS. Nuk është aspak kështu. Ka shumë qasje komplekse që mund të jenë shumë të dobishme në raste të veçanta. Heteroskedasticiteti i kushtëzuar i përgjithësuar Autoregresiv (GARCH), Bayesian dhe VAR janë vetëm disa prej tyre.

Ekzistojnë gjithashtu modele të rrjeteve nervore që mund të aplikohen në seritë kohore që përdorin parashikues të vonuar dhe mund të trajtojnë veçori të tilla si autoregresioni i rrjetit nervor (NNAR). Madje ka edhe modele të serive kohore të huazuara nga mësimi kompleks, veçanërisht në familjen e rrjeteve nervore të përsëritura, të tilla si rrjetet LSTM dhe GRU.

Metrikat e vlerësimit dhe diagnostifikimi i mbetur

Metrikat më të zakonshme të parashikimit janërms do të thotë, që shumë njerëz përdorin kur zgjidhin problemet e regresionit:

  • MAPE sepse është i pavarur nga shkalla dhe përfaqëson raportin e gabimit me vlerat aktuale si përqindje;
  • MASE, e cila tregon se sa mirë po funksionon parashikimi në krahasim me parashikimin mesatar naiv.

Pasi të jetë përshtatur një metodë parashikimi, është e rëndësishme të vlerësohet se sa mirë është në gjendje të kapë modelet. Megjithëse metrikat e vlerësimit ndihmojnë në përcaktimin se sa afër janë vlerat me vlerat aktuale, ato nuk vlerësojnë nëse modeli i përshtatet TS. Mbetjet janë një mënyrë e mirë për ta vlerësuar këtë. Meqenëse programuesi po përpiqet të aplikojë modele TS, ai mund të presë që gabimet të sillen si "zhurmë e bardhë" pasi ato përfaqësojnë diçka që nuk mund të kapet nga modeli.

"Zhurma e bardhë" duhet të ketë vetitë e mëposhtme:

  1. Reziduale të pakorreluara (Acf=0)
  2. Mbetjet ndjekin një shpërndarje normale me zero mesatare (të paanshme) dhe variancë konstante.
  3. Nëse njëra nga dy pronat mungon, ka vend për përmirësim në model.
  4. Vetia mesatare zero mund të testohet lehtësisht duke përdorur testin T.
  5. Vetitë e normalitetit dhe variancës konstante kontrollohen vizualisht duke përdorur një histogram të mbetjeve ose një test të përshtatshëm normaliteti njëndryshues.

Model ARIMA

ARIMA - Modeli AutoRegresiv i Integruar Moving-Average, është një nga metodat më të njohura të përdorura në parashikimin TS, kryesishtpërmes autokorrelacionit të të dhënave për të krijuar modele me cilësi të lartë.

Kur vlerësohen koeficientët ARIMA, supozimi kryesor është se të dhënat janë të palëvizshme. Kjo do të thotë se tendenca dhe sezonaliteti nuk mund të ndikojnë në variancën. Cilësia e modelit mund të vlerësohet duke krahasuar grafikun kohor të vlerave aktuale me vlerat e parashikuara. Nëse të dyja kurbat janë afër, atëherë mund të supozohet se modeli i përshtatet rastit të analizuar. Ai duhet të zbulojë çdo tendencë dhe sezonalitet, nëse ka.

Analiza e mbetjeve duhet të tregojë nëse modeli përshtatet: mbetjet e rastësishme do të thotë se është i saktë. Përshtatja e ARIMA-s me parametrat (0, 1, 1) do të japë të njëjtat rezultate si zbutja eksponenciale, dhe përdorimi i parametrave (0, 2, 2) do të japë rezultate të dyfishta zbutjeje eksponenciale.

Algoritmet e serive kohore në SQL Server
Algoritmet e serive kohore në SQL Server

Mund të përdorni cilësimet e ARIMA në Excel:

  1. Filloni Excel.
  2. Gjeni XL MINER në shiritin e veglave.
  3. Në shirit, zgjidhni ARIMA nga menyja rënëse.

Përmbledhje e aftësive të modelit ARIMA:

  1. ARIMA - Mesatarja Lëvizëse e Integruar Autoregresive.
  2. Modeli i parashikimit i përdorur në analizën e serive kohore.
  3. Sintaksa e parametrit ARIMA: ARIMA (p, d, q) ku p=numri i termave autoregresive, d=numri i diferencave sezonale dhe q=numri i termave mesatarë lëvizës.

Algoritme në SQL Server

Kryerja e parashikimit të kryqëzuar është një nga më të rëndësishmetveçoritë e serive kohore në parashikimin e detyrave financiare. Nëse përdoren dy seri të lidhura, modeli që rezulton mund të përdoret për të parashikuar rezultatet e një serie bazuar në sjelljen e të tjerave.

SQL Server 2008 ka veçori të reja të fuqishme të serive kohore për të mësuar dhe përdorur. Mjeti ka të dhëna TS lehtësisht të aksesueshme, një ndërfaqe të lehtë për t'u përdorur për simulimin dhe riprodhimin e funksioneve të algoritmit dhe një dritare shpjegimi me një lidhje me pyetjet DMX nga ana e serverit, në mënyrë që të kuptoni se çfarë po ndodh brenda.

Seria kohore e tregut është një fushë e gjerë në të cilën mund të zbatohen modelet dhe algoritmet e të mësuarit të thellë. Bankat, agjentët dhe fondet tani po eksperimentojnë me vendosjen e tyre të analizave dhe parashikimeve për indekset, kurset e këmbimit, të ardhmes, çmimet e kriptomonedhave, aksionet e qeverisë dhe më shumë.

Në parashikimin e serive kohore, rrjeti nervor gjen modele të parashikueshme duke studiuar strukturat dhe tendencat e tregjeve dhe u jep këshilla tregtarëve. Këto rrjete mund të ndihmojnë gjithashtu në zbulimin e anomalive të tilla si majat e papritura, rëniet, ndryshimet e trendit dhe zhvendosjet e nivelit. Shumë modele të inteligjencës artificiale përdoren për parashikimet financiare.

Recommended: