Supozimet e mishëruara në modelimin statistikor përshkruajnë një grup shpërndarjesh probabiliteti, disa prej të cilave supozohet se e përafrojnë në mënyrë adekuate shpërndarjen. Një grup specifik i të dhënave zgjidhet nga përkufizimi. Shpërndarjet e probabilitetit të qenësishme në modelimin statistikor janë ato që i dallojnë modelet statistikore nga modelet e tjera matematikore jostatistikore.
Lidhja me matematikën
Kjo metodë shkencore i ka rrënjët kryesisht në matematikë. Modelimi statistikor i sistemeve zakonisht jepet nga ekuacionet matematikore që lidhin një ose më shumë ndryshore të rastësishme dhe mundësisht variabla të tjerë jo të rastësishëm. Kështu, një model statistikor është një "përfaqësim formal i një teorie" (Hermann Ader, duke cituar Kenneth Bollen).
Të gjitha testet e hipotezave statistikore dhe të gjitha vlerësimet statistikore rrjedhin nga modelet statistikore. Në përgjithësi, modelet statistikore janë pjesë e bazës së përfundimit statistikor.
Metodat statistikoremodelim
Informalisht, një model statistikor mund të mendohet si një supozim statistikor (ose grup supozimesh statistikore) me një veti të caktuar: ky supozim na lejon të llogarisim probabilitetin e çdo ngjarjeje. Si shembull, merrni parasysh një palë zare të zakonshëm me gjashtë anë. Ne do të studiojmë dy supozime të ndryshme statistikore për kockën.
Supozimi i parë statistikor përbën modelin statistikor, sepse vetëm me një supozim mund të llogarisim probabilitetin e çdo ngjarjeje. Supozimi alternativ statistikor nuk përbën një model statistikor, sepse vetëm me një supozim nuk mund të llogarisim probabilitetin e secilës ngjarje.
Në shembullin e mësipërm me supozimin e parë, është e lehtë të llogaritet probabiliteti i një ngjarjeje. Megjithatë, në disa shembuj të tjerë, llogaritja mund të jetë komplekse apo edhe jopraktike (për shembull, mund të kërkojë miliona vjet llogaritje). Për supozimin që përbën një model statistikor, kjo vështirësi është e pranueshme: kryerja e llogaritjes nuk duhet të jetë praktikisht e realizueshme, vetëm teorikisht e mundur.
Shembuj modelesh
Supozoni se kemi një popullsi nxënësish me fëmijë të shpërndarë në mënyrë të barabartë. Gjatësia e një fëmije do të lidhet në mënyrë stokastike me moshën: për shembull, kur dimë që një fëmijë është 7 vjeç, kjo ndikon në probabilitetin që fëmija të jetë 5 këmbë i gjatë (rreth 152 cm). Ne mund ta zyrtarizojmë këtë marrëdhënie në një model regresioni linear, për shembull: rritje=b0 + b1agei+ εi, ku b0 është kryqëzimi, b1 është parametri me të cilin shumëzohet mosha kur merret parashikimi i rritjes, εi është termi i gabimit. Kjo nënkupton që lartësia parashikohet nga mosha me disa gabime.
Një model i vlefshëm duhet të përputhet me të gjitha pikat e të dhënave. Pra, një vijë e drejtë (heighti=b0 + b1agei) nuk mund të jetë një ekuacion për një model të dhënash - nëse nuk i përshtatet saktësisht të gjitha pikave të të dhënave, d.m.th. të gjitha pikat e të dhënave shtrihen në mënyrë të përsosur në vijë. Termi i gabimit εi duhet të përfshihet në ekuacion që modeli të përshtatet me të gjitha pikat e të dhënave.
Për të bërë një përfundim statistikor, së pari duhet të supozojmë disa shpërndarje probabiliteti për εi. Për shembull, mund të supozojmë se shpërndarjet e εi janë Gaussian, me zero mesatare. Në këtë rast, modeli do të ketë 3 parametra: b0, b1 dhe variancën e shpërndarjes Gaussian.
Përshkrim i përgjithshëm
Një model statistikor është një klasë e veçantë e modelit matematik. Ajo që e dallon një model statistikor nga modelet e tjera matematikore është se ai nuk është përcaktues. Përdoret për të modeluar të dhënat statistikore. Kështu, në një model statistikor të përcaktuar me ekuacione matematikore, disa variabla nuk kanë vlera specifike, por kanë shpërndarje probabiliteti; dmth disa variabla janë stokastikë. Në shembullin e mësipërm, ε është një ndryshore stokastike; pa këtë variabël, modeli ishtedo të ishte përcaktuese.
Modelet statistikore përdoren shpesh në analizën dhe modelimin statistikor, edhe nëse procesi fizik që modelohet është determinist. Për shembull, hedhja e monedhave është në parim një proces determinist; megjithatë zakonisht modelohet si stokastik (nëpërmjet një procesi Bernoulli).
Modelet parametrike
Modelet parametrike janë modelet statistikore më të përdorura. Lidhur me modelet gjysmë-parametrike dhe joparametrike, Sir David Cox tha: "Ato përgjithësisht përfshijnë më pak supozime rreth strukturës dhe formës së shpërndarjes, por zakonisht përmbajnë supozime të forta të pavarësisë." Si të gjitha modelet e tjera të përmendura, ato përdoren shpesh edhe në metodën statistikore të modelimit matematik.
Modele me shumë nivele
Modelet me shumë nivele (të njohura edhe si modele lineare hierarkike, modele të të dhënave të mbivendosura, modele të përziera, koeficientë të rastësishëm, modele të efekteve të rastësishme, modele të parametrave të rastësishëm ose modele të ndarë) janë modele parametrash statistikorë që ndryshojnë në më shumë se një nivel. Një shembull është një model i arritjeve të studentëve që përmban metrikë për studentë individualë, si dhe metrikë për klasat në të cilat nxënësit janë grupuar. Këto modele mund të mendohen si përgjithësime të modeleve lineare (në veçanti, regresioni linear), megjithëse ato mund të shtrihen edhe në modelet jolineare. Këto modele janë bërëshumë më popullor pasi fuqia dhe softueri i mjaftueshëm kompjuterik u bënë të disponueshëm.
Modelet me shumë nivele janë veçanërisht të përshtatshme për projektet kërkimore ku të dhënat për pjesëmarrësit organizohen në më shumë se një nivel (d.m.th., të dhëna të ndërlidhura). Njësitë e analizës janë zakonisht individë (në një nivel më të ulët) që janë të ndërthurura brenda kontekstit/njësive agregate (në një nivel më të lartë). Ndërsa niveli më i ulët i të dhënave në modelet me shumë nivele është zakonisht individual, mund të merren parasysh edhe matjet e përsëritura të individëve. Kështu, modelet me shumë nivele ofrojnë një lloj analize alternative për analizën e masave të përsëritura me një variacion ose me shumë variacione. Mund të merren parasysh ndryshimet individuale në kurbat e rritjes. Përveç kësaj, modelet me shumë nivele mund të përdoren si një alternativë ndaj ANCOVA, ku rezultatet e variablave të varura rregullohen për variacionet (p.sh. dallimet individuale) përpara se të testohen për dallimet e trajtimit. Modelet me shumë nivele janë në gjendje t'i analizojnë këto eksperimente pa supozimin e pjerrësisë së regresionit uniform të kërkuar nga ANCOVA.
Modelet me shumë nivele mund të përdoren për të dhëna me shumë nivele, megjithëse modelet me dy nivele janë më të zakonshmet dhe pjesa tjetër e këtij artikulli fokusohet në këto. Variabla e varur duhet të ekzaminohet në nivelin më të ulët të analizës.
Zgjedhja e modelit
Zgjedhja e modelitështë detyra e përzgjedhjes nga një grup modelesh kandidate të dhëna të dhëna, të kryera në kuadrin e modelimit statistikor. Në rastet më të thjeshta, merret parasysh një grup tashmë ekzistues i të dhënave. Megjithatë, detyra mund të përfshijë gjithashtu hartimin e eksperimenteve në mënyrë që të dhënat e mbledhura të jenë të përshtatshme për detyrën e përzgjedhjes së modelit. Duke pasur parasysh modelet kandidate me fuqi të ngjashme parashikuese ose shpjeguese, modeli më i thjeshtë ka të ngjarë të jetë zgjidhja më e mirë (rroje e Occam).
Konishi & Kitagawa thotë, "Shumica e problemeve të konkluzionit statistikor mund të konsiderohen probleme që lidhen me modelimin statistikor." Në mënyrë të ngjashme, Cox tha: "Si bëhet përkthimi i lëndës në modelin statistikor është shpesh pjesa më e rëndësishme e analizës."
Zgjedhja e modelit mund t'i referohet gjithashtu problemit të zgjedhjes së disa modeleve përfaqësuese nga një grup i madh modelesh llogaritëse për qëllime vendimi ose optimizimi nën pasiguri.
Modele grafike
Modeli grafik, ose modeli grafik probabilistik, (PGM) ose modeli probabilistik i strukturuar, është një model probabilistik për të cilin grafiku shpreh strukturën e një marrëdhënieje të kushtëzuar midis variablave të rastit. Ato përdoren zakonisht në teorinë e probabilitetit, statistika (veçanërisht statistikat Bayesian) dhe mësimin e makinerive.
Modelet ekonometrike
Modelet ekonometrike janë modele statistikore të përdorura nëekonometria. Një model ekonometrik përcakton marrëdhëniet statistikore që besohet se ekzistojnë midis sasive të ndryshme ekonomike që lidhen me një fenomen të caktuar ekonomik. Një model ekonometrik mund të rrjedh nga një model ekonomik determinist që merr parasysh pasigurinë, ose nga një model ekonomik që është në vetvete stokastik. Megjithatë, është gjithashtu e mundur të përdoren modele ekonometrike që nuk janë të lidhura me ndonjë teori të veçantë ekonomike.