Një model statistikor është një projeksion matematik që mishëron një grup supozimesh të ndryshme rreth gjenerimit të disa të dhënave të mostrës. Termi shpesh paraqitet në një formë shumë të idealizuar.
Supozimet e shprehura në modelin statistikor tregojnë një grup shpërndarjesh probabiliteti. Shumë prej të cilave synojnë të përafrojnë saktë shpërndarjen nga e cila po nxirret një grup i caktuar informacioni. Shpërndarjet e probabilitetit të qenësishme në modelet statistikore janë ato që e dallojnë projeksionin nga modifikimet e tjera matematikore.
Projeksion i përgjithshëm
Modeli matematik është një përshkrim i sistemit duke përdorur koncepte dhe gjuhë të caktuara. Ato aplikohen në shkencat natyrore (si fizika, biologjia, shkenca e tokës, kimia) dhe disiplinat inxhinierike (të tilla si shkenca kompjuterike, inxhinieria elektrike), si dhe shkencat sociale (si ekonomia, psikologjia, sociologjia, shkenca politike).
Modeli mund të ndihmojë në shpjegimin e sistemit dhestudioni ndikimin e komponentëve të ndryshëm dhe bëni parashikime të sjelljes.
Modelet matematikore mund të marrin shumë forma, duke përfshirë sistemet dinamike, projeksionet statistikore, ekuacionet diferenciale ose parametrat e teorisë së lojës. Këto dhe lloje të tjera mund të mbivendosen, dhe ky model përfshin shumë struktura abstrakte. Në përgjithësi, projeksionet matematikore mund të përfshijnë edhe komponentë logjikë. Në shumë raste, cilësia e një fushe shkencore varet nga sa mirë përputhen modelet matematikore të zhvilluara teorikisht me rezultatet e eksperimenteve të përsëritura. Mungesa e marrëveshjes ndërmjet proceseve teorike dhe matjeve eksperimentale shpesh çon në përparime të rëndësishme pasi zhvillohen teori më të mira.
Në shkencat fizike, modeli tradicional matematik përmban një numër të madh të elementëve të mëposhtëm:
- Ekuacionet e kontrollit.
- Nënmodele të tjera.
- Përcaktoni ekuacionet.
- Ekuacionet përbërëse.
- Supozime dhe kufizime.
- Kushtet fillestare dhe kufitare.
- Kufizimet klasike dhe ekuacionet kinematike.
Formula
Një model statistikor, si rregull, vendoset nga ekuacione matematikore që kombinojnë një ose më shumë ndryshore të rastësishme dhe, ndoshta, variabla të tjerë që ndodhin në natyrë. Në mënyrë të ngjashme, projeksioni konsiderohet "koncepti formal i një koncepti."
Të gjitha testimet e hipotezave statistikore dhe vlerësimet statistikore janë fituar nga modelet matematikore.
Hyrje
Informalisht, një model statistikor mund të shihet si një supozim (ose grup supozimesh) me një veti specifike: ai lejon që dikush të llogarisë probabilitetin e çdo ngjarjeje. Si shembull, merrni parasysh një palë zare të zakonshëm me gjashtë anë. Duhet të hulumtohen dy supozime të ndryshme statistikore rreth kockës.
Supozimi i parë është:
Për secilin prej zareve, probabiliteti për të marrë një nga numrat (1, 2, 3, 4, 5 dhe 6) është: 1/6.
Nga ky supozim, ne mund të llogarisim probabilitetin e të dy zarave: 1:1/6×1/6=1/36.
Më përgjithësisht, mund të llogarisni probabilitetin e çdo ngjarjeje. Megjithatë, duhet kuptuar se është e pamundur të llogaritet probabiliteti i ndonjë ngjarjeje tjetër jo të parëndësishme.
Vetëm opinioni i parë mbledh një model statistikor matematikor: për faktin se me vetëm një supozim është e mundur të përcaktohet probabiliteti i çdo veprimi.
Në mostrën e mësipërme me lejen fillestare, është e lehtë të përcaktohet mundësia e një ngjarjeje. Me disa shembuj të tjerë, llogaritja mund të jetë e vështirë ose edhe joreale (për shembull, mund të kërkojë shumë vite llogaritje). Për një person që harton një model analize statistikore, një kompleksitet i tillë konsiderohet i papranueshëm: zbatimi i llogaritjeve nuk duhet të jetë praktikisht i pamundur dhe teorikisht i pamundur.
Përkufizim formal
Në terma matematikorë, modeli statistikor i një sistemi zakonisht konsiderohet si një çift (S, P), ku S ështëgrupi i vëzhgimeve të mundshme, d.m.th. hapësira e mostrës, dhe P është bashkësia e shpërndarjeve të probabilitetit në S.
Intuita e këtij përkufizimi është si më poshtë. Supozohet se ekziston një shpërndarje probabiliteti "e vërtetë" e shkaktuar nga procesi që gjeneron të dhëna të caktuara.
Set
Është ai që përcakton parametrat e modelit. Parametizimi në përgjithësi kërkon vlera të ndryshme për të rezultuar në shpërndarje të ndryshme, p.sh.
duhet të mbajë (me fjalë të tjera, duhet të jetë injektiv). Një parametrizim që plotëson kërkesën thuhet se është i identifikueshëm.
Shembull
Supozoni se ka një numër studentësh që janë të moshave të ndryshme. Gjatësia e fëmijës do të lidhet në mënyrë stokastike me vitin e lindjes: për shembull, kur një nxënës i shkollës është 7 vjeç, kjo ndikon në probabilitetin e rritjes, vetëm në mënyrë që personi të jetë më i gjatë se 3 centimetra.
Ju mund ta zyrtarizoni këtë qasje në një model regresioni drejtvizor, për shembull, si më poshtë: lartësia i=b 0 + b 1agei + εi, ku b 0 është kryqëzimi, b 1 është parametri me të cilin mosha është shumëzuar kur merret monitorimi i lartësisë. Ky është një term gabim. Kjo do të thotë, supozohet se lartësia parashikohet nga mosha me një gabim të caktuar.
Një formular i vlefshëm duhet të përputhet me të gjitha pikat e informacionit. Kështu, drejtimi drejtvizor (niveli i=b 0 + b 1agei) nuk është i aftë të jetë një ekuacion për një model të dhënash - nëse nuk i përgjigjet qartë absolutisht të gjitha pikave. dmthpa përjashtim, të gjitha informacionet shtrihen në mënyrë të përsosur në linjë. Marzhi i gabimit εi duhet të futet në ekuacion në mënyrë që formulari të përputhet absolutisht me të gjitha artikujt e informacionit.
Për të bërë një përfundim statistikor, së pari duhet të supozojmë disa shpërndarje probabiliteti për ε i. Për shembull, mund të supozohet se shpërndarjet e ε i kanë një formë Gaussian me mesatare zero. Në këtë rast, modeli do të ketë 3 parametra: b 0, b 1 dhe variancën e shpërndarjes Gaussian.
Mund ta specifikoni zyrtarisht modelin si (S, P).
Në këtë shembull, modeli përcaktohet duke specifikuar S dhe kështu mund të bëhen disa supozime rreth P. Ka dy opsione:
Kjo rritje mund të përafrohet me një funksion linear të moshës;
Që gabimet në përafrim janë të shpërndara si brenda një Gaussian.
Vërejtje të përgjithshme
Parametrat statistikorë të modeleve janë një klasë e veçantë e projeksionit matematik. Çfarë e bën një specie të ndryshme nga një tjetër? Pra është se modeli statistikor është jopërcaktues. Kështu, në të, ndryshe nga ekuacionet matematikore, disa variabla nuk kanë vlera të caktuara, por përkundrazi kanë një shpërndarje mundësish. Kjo do të thotë, variablat individuale konsiderohen stokastike. Në shembullin e mësipërm, ε është një ndryshore stokastike. Pa të, projeksioni do të ishte përcaktues.
Ndërtimi i një modeli statistikor përdoret shpesh, edhe nëse procesi material konsiderohet të jetë determinist. Për shembull, hedhja e monedhave është, në parim, një veprim paracaktues. Megjithatë, kjo ende në shumicën e rasteve modelohet si stokastike (përmes një procesi Bernoulli).
Sipas Konishi dhe Kitagawa, ka tre synime për një model statistikor:
- Parashikime.
- Nxjerrja e informacionit.
- Përshkrimi i strukturave stokastike.
Madhësia e projeksionit
Supozojmë se ekziston një model parashikimi statistikor, Modeli quhet parametrik nëse O ka një dimension të fundëm. Në zgjidhje, duhet të shkruani se
ku k është një numër i plotë pozitiv (R qëndron për çdo numër real). Këtu k quhet dimensioni i modelit.
Si shembull, mund të supozojmë se të gjitha të dhënat vijnë nga një shpërndarje e njëanshme Gaussian:
Në këtë shembull, dimensioni i k është 2.
Dhe si një shembull tjetër, të dhënat mund të supozohet se përbëhen nga (x, y) pika, të cilat supozohet se janë të shpërndara në një vijë të drejtë me mbetjet Gaussian (me zero mesatare). Atëherë dimensioni i modelit ekonomik statistikor është i barabartë me 3: kryqëzimi i vijës, pjerrësia e saj dhe varianca e shpërndarjes së mbetjeve. Duhet të theksohet se në gjeometri një drejtëz ka dimensionin 1.
Megjithëse vlera e mësipërme është teknikisht i vetmi parametër që ka dimensionin k, ndonjëherë konsiderohet se përmban k vlera të dallueshme. Për shembull, me një shpërndarje Gaussian njëdimensionale, O është i vetmi parametër me madhësi 2, por ndonjëherë konsiderohet se përmban dyparametër individual - vlera mesatare dhe devijimi standard.
Një model procesi statistikor është joparametrik nëse grupi i vlerave O është me dimensione të pafundme. Është gjithashtu gjysmë-parametrik nëse ka parametra me dimensione të fundme dhe me dimensione të pafundme. Formalisht, nëse k është një dimension i O dhe n është numri i mostrave, modelet gjysmë-parametrike dhe joparametrike kanë
atëherë modeli është gjysmë-parametrik. Përndryshe, projeksioni është joparametrik.
Modelet parametrike janë statistikat më të përdorura. Lidhur me projeksionet gjysmë-parametrike dhe joparametrike, Sir David Cox deklaroi:
"Në mënyrë tipike, ato përfshijnë më pak hipoteza rreth strukturës dhe formës së shpërndarjes, por ato përfshijnë teori të fuqishme rreth vetë-mjaftueshmërisë."
Modelet e mbivendosur
Mos i ngatërroni me parashikimet shumënivelëshe.
Dy modele statistikore ndërlidhen nëse i pari mund të konvertohet në të dytin duke vendosur kufizime në parametrat e të parit. Për shembull, grupi i të gjitha shpërndarjeve Gaussian ka një grup të mbivendosur shpërndarjesh mesatare zero:
Dmth, ju duhet të kufizoni mesataren në grupin e të gjitha shpërndarjeve Gaussian për të marrë shpërndarje me zero mesatare. Si shembull i dytë, modeli kuadratik y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) ka një model linear të ngulitur y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - d.m.th. parametri b2 është i barabartë me 0.
Në të dy këta shembuj, modeli i parë ka një dimensionalitet më të lartë se modeli i dytë. Kjo është shpesh, por jo gjithmonë rasti. Një shembull tjetër është grupi i shpërndarjeve Gaussian me mesatare pozitive, i cili ka dimensionin 2.
Krahasimi i modeleve
Supozohet se ekziston një shpërndarje probabiliteti "e vërtetë" që qëndron në themel të të dhënave të vëzhguara të nxitura nga procesi që i ka krijuar ato.
Dhe gjithashtu modelet mund të krahasohen me njëri-tjetrin, duke përdorur analiza eksploruese ose konfirmuese. Në një analizë eksploruese, formulohen modele të ndryshme dhe bëhet një vlerësim se sa mirë secili prej tyre përshkruan të dhënat. Në një analizë konfirmuese, hipoteza e formuluar më parë krahasohet me atë origjinale. Kriteret e zakonshme për këtë përfshijnë P 2, faktorin Bayesian dhe probabilitetin relativ.
Mendimi i Konishit dhe Kitagawa
“Shumica e problemeve në një model matematikor statistikor mund të mendohen si pyetje parashikuese. Ato zakonisht formulohen si krahasime të disa faktorëve.”
Për më tepër, Sir David Cox tha: "Si përkthim nga tema, problemi në modelin statistikor është shpesh pjesa më e rëndësishme e analizës."