Metoda e grupimit: përshkrimi, konceptet bazë, veçoritë e aplikacionit

Përmbajtje:

Metoda e grupimit: përshkrimi, konceptet bazë, veçoritë e aplikacionit
Metoda e grupimit: përshkrimi, konceptet bazë, veçoritë e aplikacionit
Anonim

Metoda e grupimit është detyra e grupimit të një grupi objektesh në atë mënyrë që ata në të njëjtin grup të jenë më të ngjashëm me njëri-tjetrin sesa me objektet në industri të tjera. Është detyra kryesore e nxjerrjes së të dhënave dhe një teknikë e përgjithshme e analizës statistikore e përdorur në shumë fusha, duke përfshirë mësimin e makinerive, njohjen e modeleve, njohjen e imazheve, marrjen e informacionit, kompresimin e të dhënave dhe grafikë kompjuterike.

Problemi i optimizimit

duke përdorur metodën e grupimit
duke përdorur metodën e grupimit

Vetë metoda e grupimit nuk është një algoritëm specifik, por një detyrë e përgjithshme që duhet zgjidhur. Kjo mund të arrihet me algoritme të ndryshme që ndryshojnë ndjeshëm në të kuptuarit se çfarë përbën një grup dhe si ta gjejmë atë në mënyrë efikase. Përdorimi i metodës së grupimit për formimin e metasubjekteve përfshin përdorimin e një grupi medistanca të vogla ndërmjet anëtarëve, rajone të dendura të hapësirës, intervale ose shpërndarje të caktuara statistikore. Prandaj, grupimi mund të formulohet si një problem optimizimi me shumë objektiva.

Cilësimet e përshtatshme të metodës dhe parametrave (përfshirë elementë të tillë si funksioni i distancës për t'u përdorur, pragu i densitetit ose numri i grupimeve të pritshme) varen nga grupi i të dhënave individuale dhe përdorimi i synuar i rezultateve. Analiza si e tillë nuk është një detyrë automatike, por një proces përsëritës i zbulimit të njohurive ose optimizimi ndërveprues me shumë objektiva. Kjo metodë grupimi përfshin përpjekjet e provës dhe gabimit. Shpesh është e nevojshme të modifikohen parametrat e parapërpunimit të të dhënave dhe modelit derisa rezultati të arrijë vetitë e dëshiruara.

Përveç termit "grupim", ka një sërë fjalësh me kuptime të ngjashme, duke përfshirë klasifikimin automatik, taksonominë numerike, botriologjinë dhe analizën tipologjike. Dallimet delikate shpesh qëndrojnë në përdorimin e metodës së grupimit për të formuar marrëdhënie metasubjekte. Ndërsa në nxjerrjen e të dhënave grupet që rezultojnë janë me interes, në klasifikimin automatik është tashmë fuqia diskriminuese që kryen këto funksione.

Analiza e grupimeve u bazua në vepra të shumta të Kroeber në 1932. Ajo u fut në psikologji nga Zubin në 1938 dhe nga Robert Tryon në 1939. Dhe këto vepra janë përdorur nga Cattell që nga viti 1943 për të treguar klasifikimin e metodave të grupimit në teori.

Afati

përdorimimetodë
përdorimimetodë

Koncepti i "grupit" nuk mund të përcaktohet saktësisht. Kjo është një nga arsyet pse ka kaq shumë metoda grupimi. Ekziston një emërues i përbashkët: një grup objektesh të dhënash. Megjithatë, studiues të ndryshëm përdorin modele të ndryshme. Dhe secila prej këtyre përdorimeve të metodave të grupimit përfshin të dhëna të ndryshme. Koncepti i gjetur nga algoritme të ndryshme ndryshon ndjeshëm në vetitë e tij.

Përdorimi i metodës së grupimit është çelësi për të kuptuar ndryshimet midis udhëzimeve. Modelet tipike të grupimeve përfshijnë:

  • Centroid s. Kjo është, për shembull, kur grupimi i k-means përfaqëson çdo grup me një vektor mesatar.
  • Modeli i lidhjes s. Ky është, për shembull, grupimi hierarkik, i cili ndërton modele bazuar në lidhjen në distancë.
  • Modeli i shpërndarjes s. Në këtë rast, grupimet modelohen duke përdorur metodën e grupimit për të formuar shpërndarje statistikore metasubjekte. Të tilla si ndarja normale me shumë variacione, e cila është e zbatueshme për algoritmin e maksimizimit të pritjeve.
  • Modeli i dendësisë s. Këto janë, për shembull, DBSCAN (Spatial Clustering Algorithm with Noise) dhe OPTICS (Order Points for Structure Detection), të cilat përcaktojnë grupimet si rajone të lidhura të dendura në hapësirën e të dhënave.
  • Modeli nënhapësirë c. Në grupimin e dyfishtë (i njohur edhe si bashkë-grupim ose dy mënyra), grupet modelohen me të dy elementët dhe me atributet e duhura.
  • Modeli s. Disa algoritme jomarrëdhënie e rafinuar për metodën e tyre të grupimit për të gjeneruar rezultate meta-subjekte dhe thjesht për të ofruar grupim informacioni.
  • Modeli i bazuar në grafikun s. Një klikë, domethënë një nëngrup nyjesh, e tillë që çdo dy lidhje në pjesën e skajit mund të konsiderohet si një prototip i formës së grupit. Dobësimi i kërkesës totale njihet si kuazi-klika. Pikërisht i njëjti emër është paraqitur në algoritmin e grupimit HCS.
  • Modelet nervore s. Rrjeti më i njohur i pambikëqyrur është harta vetëorganizuese. Dhe janë këto modele që zakonisht mund të karakterizohen si të ngjashme me një ose më shumë nga metodat e mësipërme të grupimit për formimin e rezultateve meta-subjekte. Ai përfshin sistemet nënhapësirë kur rrjetet nervore zbatojnë formën e nevojshme të analizës së komponentit kryesor ose të pavarur.

Ky term është, në fakt, një grup grupesh të tilla, të cilat zakonisht përmbajnë të gjitha objektet në grupin e metodave të grupimit të të dhënave. Përveç kësaj, ai mund të tregojë marrëdhëniet e grupimeve me njëri-tjetrin, siç është një hierarki sistemesh të ndërtuara në njëri-tjetrin. Grupimi mund të ndahet në aspektet e mëposhtme:

  • Metodë e grupimit të fortë qendror. Këtu, çdo objekt i përket një grupi ose është jashtë tij.
  • Sistemi i butë ose i paqartë. Në këtë pikë, çdo objekt tashmë i përket në një masë të caktuar çdo grupi. Quhet gjithashtu metoda e grupimit fuzzy c-means.

Dhe dallime më delikate janë gjithashtu të mundshme. Për shembull:

  • Grupim i rreptë i ndarjes. Këtuçdo objekt i përket saktësisht një grupi.
  • Trupim i rreptë i ndarjes me anët e jashtme. Në këtë rast, objektet gjithashtu mund të mos i përkasin ndonjë grupi dhe të konsiderohen të panevojshëm.
  • Grupim i mbivendosur (gjithashtu alternativ, me pamje të shumta). Këtu, objektet mund t'i përkasin më shumë se një dege. Zakonisht përfshin grupime të ngurta.
  • Metodat e grupimit hierarkik. Objektet që i përkasin një grupi fëmijësh i përkasin gjithashtu nënsistemit prind.
  • Formimi i nënhapësirës. Edhe pse të ngjashme me grupimet e mbivendosura, brenda një sistemi të përcaktuar në mënyrë unike, grupet e ndërsjella nuk duhet të mbivendosen.

Udhëzime

duke përdorur metodën e grupimit për të formuar
duke përdorur metodën e grupimit për të formuar

Siç u tha më lart, algoritmet e grupimit mund të klasifikohen bazuar në modelin e tyre të grupimit. Rishikimi i mëposhtëm do të listojë vetëm shembujt më të spikatur të këtyre udhëzimeve. Meqenëse mund të ketë mbi 100 algoritme të publikuara, jo të gjithë ofrojnë modele për grupimet e tyre dhe për këtë arsye nuk mund të klasifikohen lehtësisht.

Nuk ka asnjë algoritëm objektivisht të saktë të grupimit. Por, siç u përmend më lart, udhëzimi është gjithmonë në fushën e shikimit të vëzhguesit. Algoritmi më i përshtatshëm i grupimit për një problem të caktuar shpesh duhet të zgjidhet eksperimentalisht, përveç nëse ka një arsye matematikore për të preferuar një model mbi një tjetër. Duhet të theksohet se një algoritëm i krijuar për një lloj të vetëm zakonisht nuk funksiononnjë grup të dhënash që përmban një temë rrënjësisht të ndryshme. Për shembull, k-mesatarja nuk mund të gjejë grupe jokonvekse.

Grupim i bazuar në lidhje

metoda e grupimit
metoda e grupimit

Ky bashkim njihet edhe me emrin e tij, modeli hierarkik. Ai bazohet në idenë tipike se objektet janë më të lidhura me pjesët fqinje sesa me ato që janë shumë më larg. Këto algoritme lidhin objekte, duke formuar grupime të ndryshme, në varësi të distancës së tyre. Një grup mund të përshkruhet kryesisht nga distanca maksimale që nevojitet për të lidhur pjesë të ndryshme të grupit. Në të gjitha distancat e mundshme, do të formohen grupe të tjera, të cilat mund të përfaqësohen duke përdorur një dendrogram. Kjo shpjegon se nga vjen emri i përbashkët "grupim hierarkik". Kjo do të thotë, këto algoritme nuk ofrojnë një ndarje të vetme të grupit të të dhënave, por në vend të kësaj sigurojnë një renditje të gjerë autoriteti. Është falë tij që ka një kullim me njëri-tjetrin në distanca të caktuara. Në një dendrogram, boshti y tregon distancën në të cilën grupet bashkohen. Dhe objektet janë të renditura përgjatë vijës X në mënyrë që grupet të mos përzihen.

Grupimi i bazuar në lidhje është një familje e tërë metodash që ndryshojnë në mënyrën se si llogaritin distancat. Përveç zgjedhjes së zakonshme të funksioneve të distancës, përdoruesi duhet të vendosë edhe për kriterin e lidhjes. Meqenëse një grup përbëhet nga disa objekte, ka shumë opsione për llogaritjen e tij. Një zgjedhje popullore njihet si grupimi me një levë, kjo është metodalidhje e plotë, e cila përmban UPGMA ose WPGMA (ansambël i papeshuar ose i peshuar i çifteve me mesatare aritmetike, i njohur gjithashtu si grupimi i lidhjeve mesatare). Përveç kësaj, sistemi hierarkik mund të jetë aglomerativ (duke filluar me elementë individualë dhe duke i kombinuar në grupe) ose ndarës (duke filluar me një grup të plotë të dhënash dhe duke e ndarë atë në seksione).

Grupim i shpërndarë

metoda e grupimit për të formuar
metoda e grupimit për të formuar

Këto modele janë më të lidhura me statistikat që bazohen në ndarje. Grupet mund të përkufizohen lehtësisht si objekte që me shumë mundësi i përkasin të njëjtës shpërndarje. Një tipar i dobishëm i kësaj qasjeje është se ajo është shumë e ngjashme me mënyrën se si krijohen grupet e të dhënave artificiale. Duke kampionuar objekte të rastësishme nga një shpërndarje.

Ndërsa baza teorike e këtyre metodave është e shkëlqyer, ato vuajnë nga një problem kyç, i njohur si mbipërshtatja, përveç rasteve kur vendosen kufizime në kompleksitetin e modelit. Një lidhje më e madhe zakonisht do t'i shpjegojë më mirë të dhënat, duke e bërë të vështirë zgjedhjen e metodës së duhur.

Modeli i përzierjes Gaussian

Kjo metodë përdor të gjitha llojet e algoritmeve të maksimizimit të pritjeve. Këtu, grupi i të dhënave zakonisht modelohet me një numër fiks (për të shmangur mbizotërimin) e shpërndarjeve Gaussian që inicializohen në mënyrë të rastësishme dhe parametrat e të cilëve optimizohen në mënyrë të përsëritur për t'iu përshtatur më mirë të dhënave. Ky sistem do të konvergojë në një optimum lokal. Kjo është arsyeja pse disa vrapime mund të japinrezultate të ndryshme. Për të marrë grupimin më të ngushtë, tiparet shpesh i caktohen shpërndarjes Gaussian të cilës ka më shumë gjasa t'i përkasin. Dhe për grupet më të buta, kjo nuk është e nevojshme.

Klasterimi i bazuar në shpërndarje krijon modele komplekse që në fund mund të kapin korrelacionin dhe varësinë midis atributeve. Megjithatë, këto algoritme imponojnë një barrë shtesë mbi përdoruesin. Për shumë grupe të dhënash të botës reale, mund të mos ketë një model matematikor të përcaktuar në mënyrë koncize (për shembull, duke supozuar se një shpërndarje Gaussian është një supozim mjaft i fortë).

Grupim i bazuar në densitet

grumbullimi për të formuar
grumbullimi për të formuar

Në këtë shembull, grupet në thelb përcaktohen si zona me papërshkueshmëri më të lartë se pjesa tjetër e grupit të të dhënave. Objektet në këto pjesë të rralla, të cilat janë të nevojshme për të ndarë të gjithë komponentët, zakonisht konsiderohen zhurma dhe pika skajore.

Metoda më e popullarizuar e grupimit të bazuar në densitet është DBSCAN (Algoritmi i Grupëzimit të Zhurmës Hapësinore). Ndryshe nga shumë metoda më të reja, ajo ka një komponent të mirëpërcaktuar të grupimit të quajtur "arritshmëria e densitetit". Ngjashëm me grupimin e bazuar në lidhje, ai bazohet në pikat e lidhjes brenda kufijve të caktuar të distancës. Megjithatë, kjo metodë mbledh vetëm ato artikuj që plotësojnë kriterin e densitetit. Në versionin origjinal, i përcaktuar si numri minimal i objekteve të tjera në këtë rreze, grupi përbëhet nga të gjithaartikujt e lidhur me densitetin (të cilët mund të formojnë një grup me formë të lirë, ndryshe nga shumë metoda të tjera), dhe të gjithë objektet që janë brenda intervalit të lejuar.

Një tjetër veçori interesante e DBSCAN është se kompleksiteti i tij është mjaft i ulët - kërkon një numër linear të pyetjeve të diapazonit kundrejt bazës së të dhënave. Dhe gjithashtu e pazakontë është se do të gjejë në thelb të njëjtat rezultate (kjo është përcaktuese për pikat bërthamore dhe të zhurmës, por jo për elementët kufitarë) në çdo vrapim. Prandaj, nuk ka nevojë ta ekzekutoni atë disa herë.

Disavantazhi kryesor i DBSCAN dhe OPTICS është se ata presin një rënie të densitetit për të zbuluar kufijtë e grupimeve. Për shembull, në grupet e të dhënave me mbivendosje të shpërndarjeve Gaussian - një rast i zakonshëm përdorimi për objektet artificiale - kufijtë e grupimeve të krijuara nga këto algoritme shpesh duken arbitrare. Kjo ndodh sepse dendësia e grupeve po zvogëlohet vazhdimisht. Dhe në një grup të dhënash të përzierjes Gaussian, këto algoritme pothuajse gjithmonë i tejkalojnë metodat si grupimi EM, të cilat janë në gjendje të modelojnë me saktësi këto lloje sistemesh.

Zvendosja mesatare është një qasje grupimi në të cilën çdo objekt lëviz në zonën më të dendur në lagje bazuar në një vlerësim të të gjithë kernelit. Në fund, objektet konvergojnë në maksimum të padepërtueshmërisë lokale. Ngjashëm me grupimin k-means, këta "tërheqës densiteti" mund të shërbejnë si përfaqësues për një grup të dhënash. Por ndryshimi mesatarmund të zbulojë grupe me formë arbitrare të ngjashme me DBSCAN. Për shkak të procedurës së shtrenjtë përsëritëse dhe vlerësimit të densitetit, zhvendosja mesatare është zakonisht më e ngad altë se DBSCAN ose k-Means. Përveç kësaj, zbatueshmëria e algoritmit tipik të zhvendosjes në të dhëna me dimensione të larta është e vështirë për shkak të sjelljes jo uniforme të vlerësimit të densitetit të bërthamës, gjë që çon në fragmentim të tepërt të bishtave të grupimeve.

Vlerësimi

metoda e grupimit për formimin e metasubjektit
metoda e grupimit për formimin e metasubjektit

Verifikimi i rezultateve të grupimit është po aq i vështirë sa vetë grupimi. Qasjet e njohura përfshijnë vlerësimin "të brendshëm" (ku sistemi reduktohet në një masë të vetme cilësie) dhe, natyrisht, pikëzimi "i jashtëm" (ku grupimi krahasohet me një klasifikim ekzistues të "të vërtetës bazë"). Dhe rezultati manual i ekspertit njerëzor dhe rezultati indirekt gjenden duke ekzaminuar dobinë e grupimit në aplikacionin e synuar.

Masat e brendshme të flamurit vuajnë nga problemi që ato përfaqësojnë veçori që vetë mund të konsiderohen si objektiva grupimi. Për shembull, është e mundur të grupohen të dhënat e dhëna nga koeficienti i Silhouette, përveç se nuk ka asnjë algoritëm efikas të njohur për ta bërë këtë. Duke përdorur një masë të tillë të brendshme për vlerësim, është më mirë të krahasohet ngjashmëria e problemeve të optimizimit.

Shënimi i jashtëm ka probleme të ngjashme. Nëse ka etiketa të tilla të "të vërtetës tokësore", atëherë nuk ka nevojë të grumbullohet. Dhe në aplikimet praktike, zakonisht nuk ka koncepte të tilla. Nga ana tjetër, etiketat pasqyrojnë vetëm një ndarje të mundshme të grupit të të dhënave, gjë që nuk do të thotëse nuk ka asnjë grupim tjetër (ndoshta edhe më të mirë).

Pra, asnjë nga këto qasje nuk mund të gjykojë përfundimisht cilësinë aktuale. Por kjo kërkon vlerësim njerëzor, i cili është shumë subjektiv. Megjithatë, statistika të tilla mund të jenë informuese në identifikimin e grupimeve të këqija. Por nuk duhet të zhvlerësohet vlerësimi subjektiv i një personi.

Shenja e brendshme

Kur rezultati i një grupimi vlerësohet bazuar në të dhënat që vetë janë grupuar, ky term quhet ky term. Këto metoda përgjithësisht caktojnë rezultatin më të mirë për një algoritëm që krijon grupe me ngjashmëri të lartë brenda dhe të ulët midis grupeve. Një nga disavantazhet e përdorimit të kritereve të brendshme në vlerësimin e grupimeve është se rezultatet e larta nuk çojnë domosdoshmërisht në aplikime efektive për gjetjen e informacionit. Gjithashtu, ky rezultat është i njëanshëm ndaj algoritmeve që përdorin të njëjtin model. Për shembull, grupimi k-means optimizon natyrshëm distancat e veçorive dhe një kriter i brendshëm i bazuar në të ka të ngjarë të mbivlerësojë grupimin që rezulton.

Prandaj, këto masa vlerësimi janë më të përshtatshmet për të marrë një ide të situatave ku një algoritëm funksionon më mirë se një tjetër. Por kjo nuk do të thotë se çdo informacion jep rezultate më të besueshme se të tjerët. Periudha e vlefshmërisë e matur nga një indeks i tillë varet nga pohimi se struktura ekziston në grupin e të dhënave. Një algoritëm i zhvilluar për disa lloje nuk ka asnjë shans nëse grupi përmban rrënjësishtpërbërje të ndryshme ose nëse vlerësimi mat kritere të ndryshme. Për shembull, grupimi i k-means mund të gjejë vetëm grupime konvekse dhe shumë indekse rezultatesh marrin të njëjtin format. Në një grup të dhënash me modele jokonvekse, është e papërshtatshme të përdoren k-mesatarja dhe kriteret tipike të vlerësimit.

Vlerësimi i jashtëm

Me këtë lloj grumbullimi, rezultatet e grupimit vlerësohen bazuar në të dhënat që nuk janë përdorur për grupim. Kjo është, siç janë etiketat e njohura të klasave dhe testet e jashtme. Pyetje të tilla përbëhen nga një grup artikujsh të para-klasifikuar dhe shpesh krijohen nga ekspertë (njerëz). Si të tilla, kompletet e referencës mund të shihen si standardi i artë për vlerësim. Këto lloje të metodave të pikëzimit matin se sa afër është grupimi me klasat e dhëna të referencës. Megjithatë, kohët e fundit është diskutuar nëse kjo është e përshtatshme për të dhëna reale apo vetëm për grupe sintetike me të vërtetën aktuale. Meqenëse klasat mund të përmbajnë strukturë të brendshme, dhe atributet ekzistuese mund të mos lejojnë ndarjen e grupimeve. Gjithashtu, nga pikëpamja e zbulimit të njohurive, riprodhimi i fakteve të njohura nuk mund të prodhojë domosdoshmërisht rezultatin e pritur. Në një skenar të veçantë grupimi të kufizuar ku meta-informacioni (si p.sh. etiketat e klasave) përdoret tashmë në procesin e grupimit, nuk është e parëndësishme të ruhet i gjithë informacioni për qëllime vlerësimi.

Tani është e qartë se çfarë nuk vlen për metodat e grupimit dhe cilat modele përdoren për këto qëllime.

Recommended: