Shkallëzimi shumëdimensional: përkufizimi, qëllimet, objektivat dhe shembulli

Përmbajtje:

Shkallëzimi shumëdimensional: përkufizimi, qëllimet, objektivat dhe shembulli
Shkallëzimi shumëdimensional: përkufizimi, qëllimet, objektivat dhe shembulli
Anonim

Shkallëzimi me shumë variacione (MDS) është një mjet për vizualizimin e nivelit të ngjashmërisë së rasteve individuale në një grup të dhënash. Ai i referohet një grupi metodash të ndërlidhura të renditjes të përdorura në vizualizimin e informacionit, veçanërisht për të shfaqur informacionin e përfshirë në një matricë të distancës. Kjo është një formë e reduktimit jolinear të dimensionit. Algoritmi MDS synon të vendosë çdo objekt në një hapësirë N-dimensionale në mënyrë të tillë që distancat ndërmjet objekteve të ruhen sa më mirë. Secilit objekt më pas i caktohen koordinatat në secilin nga dimensionet N.

Numri i dimensioneve të grafikut MDS mund të kalojë 2 dhe specifikohet apriori. Zgjedhja e N=2 optimizon vendosjen e objektit për 2D scatterplot. Ju mund të shihni shembuj të shkallëzimit shumëdimensional në fotot në artikull. Shembujt me simbole në rusisht janë veçanërisht ilustrues.

Shkallëzimi shumëdimensional
Shkallëzimi shumëdimensional

Thelbi

Metoda e shkallëzimit shumëdimensional (MMS,MDS) është një grup i zgjeruar mjetesh klasike që përgjithësojnë procedurën e optimizimit për një grup funksionesh humbjeje dhe matrica hyrëse të distancave të njohura me pesha etj. Në këtë kontekst, një funksion i dobishëm humbjeje quhet stresi, i cili shpesh minimizohet nga një procedurë e quajtur majorizimi i stresit.

Manual

Ka disa opsione për shkallëzimin shumëdimensional. Programet MDS minimizojnë automatikisht ngarkesën për të marrë një zgjidhje. Thelbi i algoritmit jometrik MDS është një proces optimizimi i dyfishtë. Së pari, duhet gjetur transformimi optimal i afërsisë monotonike. Së dyti, pikat e konfigurimit duhet të pozicionohen në mënyrë optimale në mënyrë që distancat e tyre të përputhen me vlerat e shkallëzuara të afërsisë sa më afër të jetë e mundur.

Shembull i shkallëzimit shumëdimensional
Shembull i shkallëzimit shumëdimensional

Zgjerim

Një shtrirje e shkallëzimit metrikë shumëdimensionale në statistika ku hapësira e synuar është një hapësirë arbitrare e lëmuar jo-Euklidiane. Ku dallimet janë distancat në një sipërfaqe dhe hapësira e synuar është një sipërfaqe tjetër. Programet tematike ju lejojnë të gjeni një bashkëngjitje me shtrembërim minimal të një sipërfaqeje në tjetrën.

Hapat

Ka disa hapa në kryerjen e një studimi duke përdorur shkallëzimin me shumë variacione:

  1. Formulimi i problemit. Cilat variabla dëshironi të krahasoni? Sa variabla dëshironi të krahasoni? Për çfarë qëllimi do të përdoret studimi?
  2. Po merr të dhënat hyrëse. Të anketuarve u bëhen një sërë pyetjesh. Për çdo palë produktesh, atyre u kërkohet të vlerësojnë ngjashmërinë (zakonisht në një shkallë Likert me 7 pikë nga shumë e ngjashme në shumë e ndryshme). Pyetja e parë mund të jetë për Coca-Cola/Pepsi, për shembull, tjetra për birrën, tjetra për Dr. Pepper, etj. Numri i pyetjeve varet nga numri i markave.
Shkallëzimi në distancë
Shkallëzimi në distancë

Qasje alternative

Ka dy qasje të tjera. Ekziston një teknikë e quajtur "Të dhënat perceptuese: Qasja e derivuar" në të cilën produktet zbërthehen në atribute dhe vlerësimi bëhet në një shkallë diferenciale semantike. Një metodë tjetër është "qasja e të dhënave të preferencës", në të cilën të anketuarit pyeten për preferencat dhe jo për ngjashmëritë.

Përbëhet nga hapat e mëposhtëm:

  1. Lansimi i programit statistikor MDS. Softueri për kryerjen e procedurës është i disponueshëm në shumë paketa softuerike statistikore. Shpesh ka një zgjedhje midis MDS metrike (që merret me të dhënat e nivelit të intervalit ose raportit) dhe MDS jometrike (që merret me të dhënat rendore).
  2. Përcaktimi i numrit të matjeve. Studiuesi duhet të përcaktojë numrin e matjeve që dëshiron të krijojë në kompjuter. Sa më shumë matje, aq më mirë është përshtatja statistikore, por aq më e vështirë është të interpretohen rezultatet.
  3. Shfaq rezultatet dhe përcaktoni matjet - programi statistikor (ose moduli i lidhur) do t'i shfaqë rezultatet. Harta do të shfaqë çdo produkt (zakonisht në 2D).hapësirë). Afërsia e produkteve me njëri-tjetrin tregon ose ngjashmërinë ose preferencën e tyre, në varësi të qasjes së përdorur. Megjithatë, se si matjet në të vërtetë korrespondojnë me matjet e sjelljes së sistemit nuk është gjithmonë e qartë. Këtu mund të bëhet një gjykim subjektiv i konformitetit.
  4. Kontrolloni rezultatet për besueshmërinë dhe vlefshmërinë - llogaritni R-katrorin për të përcaktuar përqindjen e variancës së shkallëzuar të të dhënave që mund të llogaritet nga procedura MDS. Sheshi R 0.6 konsiderohet si niveli minimal i pranueshëm. R katrori 0,8 konsiderohet i mirë për shkallëzimin metrikë, ndërsa 0,9 konsiderohet i mirë për shkallëzimin jometrik.
Rezultatet e shkallëzimit me shumë variacione
Rezultatet e shkallëzimit me shumë variacione

Teste të ndryshme

Teste të tjera të mundshme janë testet e stresit të tipit Kruskal, testet e ndarjes së të dhënave, testet e stabilitetit të të dhënave dhe testet e besueshmërisë së ritestimit. Shkruani në detaje për rezultatet në test. Së bashku me hartëzimin, duhet të specifikohet të paktën një masë e distancës (p.sh. indeksi Sorenson, indeksi Jaccard) dhe besueshmëria (p.sh. vlera e stresit).

Është gjithashtu shumë e dëshirueshme të jepni një algoritëm (p.sh. Kruskal, Mather) i cili shpesh përcaktohet nga programi i përdorur (ndonjëherë duke zëvendësuar raportin e algoritmit), nëse keni dhënë një konfigurim fillestar ose keni pasur një zgjedhje të rastësishme, numrin e vrapimeve të dimensioneve, rezultatet e Monte Carlo, numri i përsëritjeve, rezultati i qëndrueshmërisë dhe varianca proporcionale e secilit aks (r-katror).

Informacioni vizual dhe metoda e analizës së të dhënaveshkallëzim shumëdimensional

Vizualizimi i informacionit është studimi i paraqitjeve ndërvepruese (vizuale) të të dhënave abstrakte për të përmirësuar njohjen njerëzore. Të dhënat abstrakte përfshijnë të dhëna numerike dhe jo-numerike si informacione tekstuale dhe gjeografike. Sidoqoftë, vizualizimi i informacionit ndryshon nga vizualizimi shkencor: "është informues (vizualizimi i informacionit) kur zgjidhet një paraqitje hapësinore dhe scivis (vizualizimi shkencor) kur jepet një paraqitje hapësinore."

Fusha e vizualizimit të informacionit doli nga kërkimet në ndërveprimin njeri-kompjuter, aplikimet e shkencave kompjuterike, grafika, dizajni vizual, psikologjia dhe metodat e biznesit. Ai po përdoret gjithnjë e më shumë si një komponent thelbësor në kërkimin shkencor, bibliotekat dixhitale, nxjerrjen e të dhënave, të dhënat financiare, kërkimin e tregut, kontrollin e prodhimit etj.

Metodat dhe parimet

Vizualizimi i informacionit sugjeron që metodat e vizualizimit dhe ndërveprimit përfitojnë nga pasuria e perceptimit njerëzor, duke i lejuar përdoruesit të shohin, eksplorojnë dhe kuptojnë në të njëjtën kohë sasi të mëdha informacioni. Vizualizimi i informacionit synon të krijojë qasje për komunikimin e të dhënave abstrakte, informacionit në një mënyrë intuitive.

Shkallëzimi shumëdimensional i ngjyrave
Shkallëzimi shumëdimensional i ngjyrave

Analiza e të dhënave është një pjesë integrale e të gjithë kërkimit të aplikuar dhe zgjidhjes së problemeve në industri. ShumicaQasjet themelore të analizës së të dhënave janë vizualizimi (histogramet, skicat e shpërndarjes, parcelat sipërfaqësore, hartat e pemëve, parcelat e koordinatave paralele, etj.), statistikat (testimi i hipotezave, regresioni, PCA, etj.), analiza e të dhënave (përputhja, etj.)..d.) dhe metodat e mësimit të makinerive (grupimi, klasifikimi, pemët e vendimeve, etj.).

Ndër këto qasje, vizualizimi i informacionit ose analiza vizuale e të dhënave është më e varura nga aftësitë njohëse të stafit analitik dhe lejon zbulimin e njohurive të pastrukturuara të veprimit që kufizohen vetëm nga imagjinata dhe kreativiteti njerëzor. Një analist nuk ka nevojë të mësojë ndonjë teknikë komplekse për të qenë në gjendje të interpretojë vizualizimet e të dhënave. Vizualizimi i informacionit është gjithashtu një skemë e gjenerimit të hipotezave që mund dhe zakonisht shoqërohet nga analiza më analitike ose formale, siç është testimi i hipotezave statistikore.

Studim

Studimi modern i vizualizimit filloi me grafikën kompjuterike, e cila "që në fillim u përdor për të studiuar problemet shkencore. Megjithatë, në vitet e hershme, mungesa e fuqisë grafike shpesh e kufizoi dobinë e saj. Prioriteti mbi vizualizimin filloi për t'u zhvilluar në 1987, me lëshimin e softuerit special për Grafikën Kompjuterike dhe Vizualizimin në Kompjuterin Shkencor Që atëherë, ka pasur disa konferenca dhe seminare të organizuara së bashku nga Shoqëria Kompjuterike IEEE dhe ACM SIGGRAPH".

Ata mbuluan temat e përgjithshme të vizualizimit të të dhënave, vizualizimit të informacionit dhe vizualizimit shkencor,si dhe fusha më specifike, si p.sh. interpretimi i vëllimit.

Shkallëzimi shumëdimensional i markës
Shkallëzimi shumëdimensional i markës

Përmbledhje

Shkallëzimi shumëdimensional i përgjithësuar (GMDS) është një shtrirje e shkallëzimit metrikë shumëdimensionale në të cilën hapësira e synuar është jo-Euklidiane. Kur dallimet janë distanca në një sipërfaqe, dhe hapësira e synuar është një sipërfaqe tjetër, GMDS ju lejon të gjeni folenë e një sipërfaqeje në një tjetër me shtrembërim minimal.

GMDS është një linjë e re kërkimi. Aktualisht, aplikacionet kryesore janë njohja e objekteve të deformueshme (për shembull, për njohjen 3D të fytyrës) dhe harta e teksturës.

Qëllimi i shkallëzimit shumëdimensional është të përfaqësojë të dhëna shumëdimensionale. Të dhënat shumëdimensionale, domethënë të dhënat që kërkojnë më shumë se dy ose tre dimensione për t'u përfaqësuar, mund të jenë të vështira për t'u interpretuar. Një qasje ndaj thjeshtimit është të supozohet se të dhënat me interes qëndrojnë në një manifold jolinear të ngulitur në një hapësirë me dimensione të larta. Nëse kolektori ka një dimension mjaft të ulët, të dhënat mund të vizualizohen në hapësirën me dimensione të ulëta.

Shumë nga metodat jolineare të reduktimit të dimensioneve lidhen me metodat lineare. Metodat jolineare mund të klasifikohen gjerësisht në dy grupe: ato që ofrojnë hartografi (qoftë nga hapësira me dimensione të larta në ngulitje me dimensione të ulëta, ose anasjelltas), dhe ato që thjesht ofrojnë vizualizim. Në kontekstin e mësimit të makinerive, metodat e hartës mund të shihen sinjë fazë paraprake e nxjerrjes së veçorive, pas së cilës aplikohen algoritmet e njohjes së modelit. Zakonisht ato që japin vetëm vizualizime bazohen në të dhënat e afërsisë - pra matjet e distancës. Shkallëzimi shumëdimensional është gjithashtu mjaft i zakonshëm në psikologji dhe shkenca të tjera humane.

Shkallëzimi diagonal shumëdimensional
Shkallëzimi diagonal shumëdimensional

Nëse numri i atributeve është i madh, atëherë hapësira e vargjeve unike të mundshme është gjithashtu në mënyrë eksponenciale e madhe. Kështu, sa më i madh të jetë dimensioni, aq më e vështirë bëhet përshkrimi i hapësirës. Kjo shkakton shumë probleme. Algoritmet që operojnë në të dhëna me dimensione të larta priren të kenë kompleksitet shumë të lartë kohor. Reduktimi i të dhënave në më pak dimensione shpesh i bën algoritmet e analizës më efikase dhe mund të ndihmojë algoritmet e mësimit të makinerive të bëjnë parashikime më të sakta. Kjo është arsyeja pse shkallëzimi shumëdimensional i të dhënave është kaq popullor.

Recommended: