Informacion statistikor: grumbullimi, përpunimi, analiza

2026 Autor: Angel Austin | austin@vogueindustry.com. E modifikuara e fundit: 2025-01-23 12:34:08

Gjatë historisë së statistikave, janë bërë përpjekje të ndryshme për të krijuar një taksonomi të niveleve të matjes. Psikofizikani Stanley Smith Stevens përcaktoi shkallët nominale, rendore, intervale dhe proporcionale.

Matje nominale nuk kanë renditje të rëndësishme të renditjeve midis vlerave dhe lejojnë çdo konvertim një për një.

Dimensionet e rregullta kanë dallime të pasakta midis vlerave të njëpasnjëshme, por kanë një renditje specifike të atyre vlerave dhe lejojnë çdo transformim të ruajtjes së rendit.

Masjet e intervalit kanë distanca domethënëse midis pikave, por vlera zero është arbitrare (si në rastin e matjeve të gjatësisë dhe temperaturës në Celsius ose Fahrenheit) dhe lejon çdo transformim linear.

Dimensionet e raportit kanë një vlerë zero domethënëse dhe distanca midis dimensioneve të ndryshme dhe lejojnë çdo transformim të shkallëzimit.

Ndryshoret dhe klasifikimi i informacionit

Sepse variablatqë korrespondojnë vetëm me matjet nominale ose rendore nuk mund të maten në mënyrë të arsyeshme numerikisht dhe ndonjëherë grupohen si variabla kategorike. Matjet e raportit dhe të intervalit grupohen si variabla sasiore, të cilat mund të jenë ose diskrete ose të vazhdueshme për shkak të natyrës së tyre numerike. Dallime të tilla shpesh lidhen lirshëm me llojin e të dhënave në shkencën kompjuterike, pasi variablat kategorikë dikotomikë mund të përfaqësohen nga vlera boolean, variabla kategorikë politomikë me numra të plotë arbitrar në një lloj të dhënash integrale dhe variabla të vazhdueshme me komponentë realë që përfshijnë llogaritjen e pikës lundruese. Por shfaqja e llojeve të të dhënave të informacionit statistikor varet nga klasifikimi i aplikuar.

Klasifikime të tjera

Janë krijuar edhe klasifikime të tjera të të dhënave (informacioneve) statistikore. Për shembull, Mosteller dhe Tukey bënë dallimin midis notave, gradave, aksioneve të numëruara, numërimit, shumave dhe bilanceve. Nelder në një kohë përshkroi numërime të vazhdueshme, raporte të vazhdueshme, korrelacion të numërimit dhe mënyra kategorike të komunikimit të të dhënave. Të gjitha këto metoda klasifikimi përdoren në mbledhjen e informacionit statistikor.

Probleme

Çështja nëse është e përshtatshme të aplikohen lloje të ndryshme metodash statistikore për të dhënat e marra nëpërmjet procedurave të ndryshme të matjes (mbledhjes) është e ndërlikuar nga çështjet që kanë të bëjnë me konvertimin e variablave dhe interpretimin e saktë të pyetjeve.kërkimore. “Marrëdhënia midis të dhënave dhe asaj që përshkruan thjesht pasqyron faktin se disa lloje të deklaratave statistikore mund të kenë vlera të vërteta që nuk janë të pandryshueshme në disa transformime. Nëse ia vlen të merret parasysh transformimi varet nga pyetja që po përpiqeni t'i përgjigjeni.

Një shembull i informacionit statistikor

Çfarë është lloji i të dhënave

Lloji i të dhënave është një komponent themelor i përmbajtjes semantike të një variabli dhe kontrollon se çfarë lloj shpërndarjesh probabiliteti mund të përdoren logjikisht për të përshkruar variablin, operacionet e lejuara në të, llojin e analizës së regresionit të përdorur për ta parashikuar atë., etj. Koncepti i një lloji të dhënash është i ngjashëm në konceptin e nivelit të matjes, por më specifik - për shembull, numërimi i të dhënave kërkon një shpërndarje të ndryshme (Poisson ose binom) sesa për vlerat reale jo negative, por të dyja bien nën të njëjtën niveli i matjes (shkalla e koeficientit).

peshore

Janë bërë përpjekje të ndryshme për të krijuar një taksonomi të niveleve të matjes për përpunimin e informacionit statistikor. Psikofizikani Stanley Smith Stevens përcaktoi shkallët nominale, rendore, intervale dhe proporcionale. Matjet nominale nuk kanë një renditje të rëndësishme të renditjes midis vlerave dhe lejojnë çdo konvertim një-në-një. Matjet e zakonshme kanë dallime të pasakta midis vlerave të njëpasnjëshme, por ndryshojnë në rendin domethënës të atyre vlerave dhe lejojnëçdo transformim që ruan rendin. Matjet e intervalit kanë distanca domethënëse midis matjeve, por vlera zero është arbitrare (si në rastin e matjeve të gjatësisë dhe temperaturës në Celsius ose Fahrenheit) dhe lejon çdo transformim linear. Dimensionet e raportit kanë një vlerë zero domethënëse dhe distanca midis dimensioneve të ndryshme të përcaktuara dhe lejojnë çdo transformim të shkallëzimit.

Të dhënat që nuk mund të përshkruhen duke përdorur një numër të vetëm përfshihen shpesh në vektorët e rastësishëm të ndryshoreve reale të rastësishme, megjithëse ka një tendencë në rritje për t'i përpunuar ato vetë. Shembuj të tillë do të diskutohen më poshtë.

Vektorë të rastësishëm

Elementet individuale mund të jenë ose jo të ndërlidhura. Shembuj të shpërndarjeve të përdorura për të përshkruar vektorët e rastësishëm të korreluar janë shpërndarja normale me shumë variacione dhe shpërndarja t multivariate. Në përgjithësi, mund të ketë korrelacione arbitrare midis çdo elementi, megjithatë kjo shpesh bëhet e pakontrollueshme mbi një madhësi të caktuar, duke kërkuar kufizime shtesë në komponentët e ndërlidhur.

Matricat e rastësishme

Matricat e rastësishme mund të renditen në mënyrë lineare dhe të trajtohen si vektorë të rastësishëm, megjithatë kjo mund të mos jetë një mënyrë efikase për të paraqitur korrelacionet midis elementeve të ndryshëm. Disa shpërndarje probabiliteti janë krijuar posaçërisht për matrica të rastësishme, siç është matrica normaleshpërndarja dhe shpërndarja Wishart.

Sekuenca të rastësishme

Ndonjëherë ata konsiderohen të njëjtë me vektorët e rastësishëm, por në raste të tjera termi zbatohet në mënyrë specifike për rastet kur çdo ndryshore e rastësishme lidhet vetëm me variablat e afërt (si në një model Markov). Ky është një rast i veçantë i rrjetit Bayesian dhe përdoret për sekuenca shumë të gjata, të tilla si zinxhirë gjenesh ose dokumente të gjata teksti. Një numër modelesh janë krijuar posaçërisht për sekuenca të tilla, si sekuencat e fshehura Markov.

Procese të rastësishme

Ato janë të ngjashme me sekuencat e rastësishme, por vetëm kur gjatësia e sekuencës është e pacaktuar ose e pafundme, dhe elementet në sekuencë përpunohen një nga një. Kjo përdoret shpesh për të dhëna që mund të përshkruhen si seri kohore. Kjo është e vërtetë kur bëhet fjalë, për shembull, për çmimin e aksioneve të nesërmen.

Përfundim

Analiza e informacionit statistikor varet tërësisht nga cilësia e grumbullimit të tij. Kjo e fundit, nga ana tjetër, lidhet fort me mundësitë e klasifikimit të saj. Sigurisht, ka shumë lloje të klasifikimit të informacionit statistikor, të cilat lexuesi mund t'i shohë vetë kur lexon këtë artikull. Sidoqoftë, prania e mjeteve efektive dhe zotërimi i mirë i matematikës, si dhe njohuritë në fushën e sociologjisë, do të bëjnë punën e tyre, duke ju lejuar të kryeni çdo studim ose studim pa korrigjime të rëndësishme për gabime. Burimet e informacionit statistikor në formularnjerëzit, organizatat dhe lëndët e tjera të sociologjisë, për fat të mirë, janë të përfaqësuar me bollëk të madh. Dhe asnjë vështirësi nuk mund të qëndrojë në rrugën e një eksploruesi të vërtetë.