Data Mining është Koncepti, analiza e algoritmit, qëllimi dhe zbatimi

Përmbajtje:

Data Mining është Koncepti, analiza e algoritmit, qëllimi dhe zbatimi
Data Mining është Koncepti, analiza e algoritmit, qëllimi dhe zbatimi
Anonim

Zhvillimi i teknologjisë së informacionit sjell rezultate praktike. Por detyra të tilla si gjetja, analizimi dhe përdorimi i informacionit nuk kanë marrë ende një mjet efektiv me cilësi të lartë. Ka mjete analitike dhe sasiore, ato vërtet funksionojnë. Por një revolucion cilësor në përdorimin e informacionit nuk ka ndodhur ende.

Shumë përpara ardhjes së teknologjisë kompjuterike, një personi kishte nevojë të përpunonte sasi të mëdha informacioni dhe ta përballonte këtë në mënyrën më të mirë të përvojës së tij dhe aftësive teknike të disponueshme.

Zhvillimi i njohurive dhe aftësive ka përmbushur gjithmonë nevojat reale dhe i përgjigjet detyrave aktuale. Minierat e të dhënave është një emër kolektiv që përdoret për t'iu referuar një grupi metodash për zbulimin e njohurive të panjohura më parë, jo të parëndësishme, praktikisht të dobishme dhe të arritshme në të dhëna, të nevojshme për marrjen e vendimeve në fusha të ndryshme të veprimtarisë njerëzore.

Njeriu, inteligjenca, programimi

Një person di gjithmonë si të veprojë në çdo situatë. Injoranca ose një situatë e panjohur nuk e pengon atë të marrë një vendim. Objektiviteti dhe arsyeshmëria e çdo vendimi njerëzor mund të vihet në dyshim, por ai do të pranohet.

Inteligjenca bazohet në: "mekanizmin" trashëgues, njohuritë e fituara, aktive. Njohuria zbatohet për të zgjidhur problemet që dalin përpara një personi.

  1. Inteligjenca është një grup unik njohurish dhe aftësish: mundësi dhe bazë për jetën dhe punën njerëzore.
  2. Inteligjenca po evoluon vazhdimisht dhe veprimet njerëzore kanë ndikim te njerëzit e tjerë.

Programimi është përpjekja e parë për të zyrtarizuar paraqitjen e të dhënave dhe procesin e krijimit të algoritmeve.

Njeriu, inteligjenca, programimi
Njeriu, inteligjenca, programimi

Inteligjenca artificiale (AI) është humbje kohe dhe burimesh, por rezultatet e përpjekjeve të pasuksesshme të shekullit të kaluar në fushën e AI mbetën në kujtesë, u përdorën në sisteme të ndryshme ekspertësh (inteligjente) dhe u transformuan, në veçanti, në algoritme (rregulla) dhe analiza matematikore (logjike) të të dhënave dhe Minierat e të Dhënave.

Informacioni dhe kërkimi i zakonshëm për një zgjidhje

Një bibliotekë e zakonshme është një depo e njohurive, dhe fjala e shtypur dhe grafikët ende nuk i kanë dhënë dorën teknologjisë kompjuterike. Librat mbi fizikën, kiminë, mekanikën teorike, dizajnin, historinë e natyrës, filozofinë, shkencat natyrore, botanikën, tekstet shkollore, monografitë, punimet e shkencëtarëve, materialet e konferencave, raportet mbi punën zhvillimore etj. janë gjithmonë relevante dhe të besueshme.

Biblioteka është shumë burime të ndryshme që ndryshojnëforma e paraqitjes së materialit, origjina, struktura, përmbajtja, stili i paraqitjes etj.

Biblioteka: libra, revista dhe materiale të tjera të shtypura
Biblioteka: libra, revista dhe materiale të tjera të shtypura

Në pamje të jashtme gjithçka është e dukshme (e lexueshme, e arritshme) për t'u kuptuar dhe përdorur. Ju mund të zgjidhni çdo problem, të vendosni saktë detyrën, të arsyetoni zgjidhjen, të shkruani një ese ose punim terminor, të zgjidhni materialin për një diplomë, të analizoni burime mbi temën e një disertacioni ose një raporti shkencor dhe analitik.

Çdo problem informacioni mund të zgjidhet. Me këmbënguljen dhe aftësinë e duhur, do të arrihet një rezultat i saktë dhe i besueshëm. Në këtë kontekst, Data Mining është një qasje krejtësisht e ndryshme.

Përveç rezultatit, një person merr "lidhje aktive" me gjithçka që është parë në procesin e arritjes së qëllimit. Burimet që ai përdori në zgjidhjen e problemit mund të referohen dhe askush nuk do ta kundërshtojë faktin e ekzistencës së burimit. Kjo nuk është një garanci për autenticitetin, por është një dëshmi e sigurt se kujt i është “çabonuar” përgjegjësia për autenticitetin. Nga ky këndvështrim, Miningja e të Dhënave nënkupton dyshime të mëdha për besueshmërinë dhe pa lidhje "aktive".

Duke zgjidhur disa probleme, një person merr rezultate dhe zgjeron potencialin e tij intelektual në shumë "lidhje aktive". Nëse një detyrë e re "aktivizon" një lidhje tashmë ekzistuese, personi do të dijë se si ta zgjidhë atë: nuk ka nevojë të kërkojë asgjë përsëri.

"Lidhja aktive" është një lidhje fikse: si dhe çfarë të bëni në një rast të veçantë. Truri i njeriut kujton automatikisht gjithçka që i duket potencialisht interesante, e dobishme.ose ka të ngjarë të jetë e nevojshme në të ardhmen. Në shumë mënyra, kjo ndodh në një nivel nënndërgjegjeshëm, por sapo lind një detyrë që mund të shoqërohet me një "lidhje aktive", ajo shfaqet menjëherë në mendje dhe një zgjidhje do të merret pa kërkim shtesë për informacion. Minimi i të dhënave është gjithmonë një përsëritje e algoritmit të kërkimit dhe ky algoritëm nuk ndryshon.

Kërkim i rregullt: probleme "artistike"

Biblioteka e matematikës dhe kërkimi i informacionit në të është një detyrë relativisht e dobët. Të gjesh një mënyrë ose një tjetër për të zgjidhur një integral, për të ndërtuar një matricë ose për të kryer operacionin e mbledhjes së dy numrave imagjinarë është e mundimshme, por e thjeshtë. Ju duhet të renditni një numër librash, shumë prej të cilëve janë shkruar në një gjuhë specifike, të gjeni tekstin e duhur, ta studioni atë dhe të merrni zgjidhjen e kërkuar.

Me kalimin e kohës, numërimi do të bëhet i njohur dhe përvoja e grumbulluar do t'ju lejojë të lundroni në informacionin e bibliotekës dhe probleme të tjera matematikore. Kjo është një hapësirë e kufizuar informacioni me pyetje dhe përgjigje. Një tipar karakteristik: një kërkim i tillë për informacion grumbullon njohuri për zgjidhjen e problemeve të ngjashme. Kërkimi i një personi për informacion lë gjurmë ("lidhje aktive") në kujtesën e tij për zgjidhjet e mundshme të problemeve të tjera.

Në letërsi artistike, gjeni përgjigjen e pyetjes: "Si jetuan njerëzit në janar 1248?" shume e veshtire. Është edhe më e vështirë t'i përgjigjesh pyetjes se çfarë kishte në raftet e dyqaneve dhe si organizohej tregtia me ushqime. Edhe nëse ndonjë shkrimtar ka shkruar qartë dhe drejtpërdrejt për këtë në romanin e tij, nëse emri i këtij shkrimtari mund të gjendet, atëherë dyshimet përbesueshmëria e të dhënave të marra do të mbetet. Besueshmëria është një karakteristikë kritike e çdo sasie informacioni. Burimi, autori dhe provat që përjashtojnë falsitetin e rezultatit janë të rëndësishme.

Rrethanat objektive të një situate të caktuar

Njeriu sheh, dëgjon, ndjen. Disa specialistë flasin rrjedhshëm në një ndjenjë unike - intuitën. Deklarimi i problemit kërkon informacion, procesi i zgjidhjes së problemit shoqërohet më së shpeshti me një përsosje të deklaratës së problemit. Ky është problemi më i vogël që vjen me lëvizjen e informacionit në zorrët e një sistemi kompjuterik.

Informacion në hapësirën virtuale
Informacion në hapësirën virtuale

Biblioteka dhe kolegët e punës janë pjesëmarrës indirekt në procesin e vendimmarrjes. Dizajni i librit (burimi), grafika në tekst, veçoritë e ndarjes së informacionit në tituj, shënimet në fund të faqeve sipas frazave, indeksi i lëndës, lista e burimeve parësore - gjithçka ngjall asociacione tek një person që ndikojnë indirekt në procesin e zgjidhjes problemi.

Koha dhe vendi i zgjidhjes së problemit është thelbësor. Një person është aq i rregulluar saqë në mënyrë të pavullnetshme i kushton vëmendje gjithçkaje që e rrethon në procesin e zgjidhjes së një problemi. Mund të jetë shpërqendruese, ose mund të jetë stimuluese. Minierat e të dhënave nuk do të "kuptojnë kurrë".

Informacion në hapësirën virtuale

Një person ka qenë gjithmonë i interesuar vetëm për informacione të besueshme në lidhje me një ngjarje, fenomen, objekt, algoritëm për zgjidhjen e një problemi. Njeriu gjithmonë ka imagjinuar saktësisht se si mund të arrijë qëllimin e dëshiruar.

Shfaqja e kompjuterëve dhe sistemeve të informacionit duhet ta kishte bërë jetën më të lehtë për një person, por gjithçka është bërë më e ndërlikuar. Informacioni migroi në zorrët e sistemeve kompjuterike dhe u zhduk nga sytë. Për të zgjedhur të dhënat e nevojshme, duhet të krijoni një algoritëm të saktë ose të formuloni një pyetje në bazën e të dhënave.

Të dhënat brenda sistemit të informacionit
Të dhënat brenda sistemit të informacionit

Pyetja duhet të jetë e saktë. Vetëm atëherë mund të merrni një përgjigje. Por dyshimet për vërtetësinë mbeten. Në këtë kuptim, Data Mining është me të vërtetë "gërmime", është "nxjerrja e informacionit". Kështu është në modë të përkthehet kjo frazë. Versioni rus është teknologjia e nxjerrjes së të dhënave ose e minierës së të dhënave.

Në punimet e specialistëve autoritativë, detyrat e Minierave të të Dhënave tregohen si më poshtë:

  • klasifikim;
  • grupim;
  • shoqatë;
  • sekuencë;
  • parashikim.

Nga pikëpamja e praktikës që drejton një person në përpunimin manual të informacionit, të gjitha këto pozicione janë të diskutueshme. Në çdo rast, një person përpunon informacionin automatikisht dhe nuk mendon për klasifikimin e të dhënave, përpilimin e grupeve tematike të objekteve (grupimin), kërkimin e modeleve kohore (sekuencën) ose parashikimin e rezultatit.

Të gjitha këto pozicione në mendjen e njeriut përfaqësohen nga njohuri aktive, të cilat mbulojnë më shumë pozicione dhe përdorin në mënyrë dinamike logjikën e përpunimit të të dhënave fillestare. Nënndërgjegjja e një personi luan një rol të rëndësishëm, veçanërisht kur ai është specialist në një fushë të caktuar dijeje.

Shembull: Shitje me shumicë e pajisjeve kompjuterike

Detyra është e thjeshtë. Ka disadhjetëra furnizues të pajisjeve kompjuterike dhe pajisjeve periferike. Secili ka një listë çmimesh në formatin xls (skedar Excel), i cili mund të shkarkohet nga faqja zyrtare e internetit e furnizuesit. Kërkohet krijimi i një burimi në internet që lexon skedarët Excel, i konverton ato në tabela të bazës së të dhënave dhe i lejon klientët të zgjedhin produktet e dëshiruara me çmimet më të ulëta.

Problemet lindin menjëherë. Çdo furnizues ofron versionin e vet të strukturës dhe përmbajtjes së skedarit xls. Ju mund ta merrni skedarin duke e shkarkuar atë nga faqja e internetit e furnizuesit, duke e porositur me e-mail, ose duke marrë një lidhje shkarkimi përmes llogarisë tuaj personale, domethënë duke u regjistruar zyrtarisht te furnizuesi.

Dyqan kompjuterësh virtualë
Dyqan kompjuterësh virtualë

Zgjidhja e problemit (në fillim) është teknologjikisht e thjeshtë. Ngarkimi i skedarëve (të dhënat fillestare), një algoritëm i njohjes së skedarëve shkruhet për çdo furnizues dhe të dhënat vendosen në një tabelë të madhe të të dhënave fillestare. Pasi të jenë marrë të gjitha të dhënat, pasi të jetë vendosur mekanizmi i shkëmbimit të vazhdueshëm (ditor, javor ose me ndryshim) të të dhënave të freskëta:

  • ndryshim asortiment;
  • ndryshime çmimi;
  • sqarim i sasisë në stok;
  • rregullim i kushteve të garancisë, specifikimeve, etj.

Këtu fillojnë problemet e vërteta. Puna është që furnizuesi mund të shkruajë:

  • fletore Acer;
  • fletore Asus;
  • Laptop Dell.

Po flasim për të njëjtin produkt, por nga prodhues të ndryshëm. Si të përputhet notebook=laptop apo si të hiqni Acer, Asus dhe Dell nga një linjë produktesh?

Përnjeriu nuk është problem, por si do ta "kuptojë" algoritmi që Acer, Asus, Dell, Samsung, LG, HP, Sony janë marka tregtare ose furnizues? Si të përputhen "printer" dhe printer, "skaner" dhe "MFP", "kopjues" dhe "MFP", "kufje" me "kufje", "aksesorë" me "aksesorë"?

Ndërtimi i një peme kategorie bazuar në të dhënat burimore (skedarët burimor) është tashmë një problem kur duhet të vendosni gjithçka në automatik.

Kampionimi i të dhënave: gërmimet e "të sapoderdhura"

Detyra për të krijuar një bazë të dhënash të furnizuesve të pajisjeve kompjuterike është zgjidhur. Është ndërtuar një pemë kategorish, po funksionon një tabelë e përbashkët me oferta nga të gjithë furnitorët.

Detyrat tipike të nxjerrjes së të dhënave në kontekstin e këtij shembulli:

  • gjeni një produkt me çmimin më të ulët;
  • zgjidh artikullin me koston dhe çmimin më të ulët të transportit;
  • analiza e produktit: karakteristikat dhe çmimet sipas kritereve.

Në punën reale të një menaxheri që përdor të dhëna nga disa dhjetëra furnizues, do të ketë shumë variacione të këtyre detyrave dhe situata akoma më reale.

Për shembull, ekziston një furnizues "A" që shet ASUS VivoBook S15: parapagim, dërgesë 5 ditë pas marrjes aktuale të parave. Ekziston një furnizues "B" i të njëjtit produkt të të njëjtit model: pagesa me marrje, dërgesa pas përfundimit të kontratës brenda një dite, çmimi është një herë e gjysmë më i lartë.

Fillon minimi i të dhënave - "gërmimet". Shprehjet figurative: "gërmime" ose "të dhënat e nxjerra" janë sinonime. Ka të bëjë me mënyrën se si të gjeni një arsye për të marrë një vendim.

Furnizuesit "A" dhe "B" kanë një histori dërgesash. Gradëparapagimi në rastin e parë kundrejt pagesës në faturë në rastin e dytë, duke pasur parasysh se dështimi i dërgesës në rastin e dytë është 65% më i lartë. Rreziku i ndëshkimeve nga klienti është më i lartë/më i ulët. Si dhe çfarë të përcaktoni dhe çfarë vendimi të merrni?

Nga ana tjetër: baza e të dhënave u krijua nga një programues dhe një menaxher. Nëse programuesi dhe menaxheri kanë ndryshuar, si të përcaktoni gjendjen aktuale të bazës së të dhënave dhe të mësoni se si ta përdorni atë në mënyrë korrekte? Ju gjithashtu do të duhet të bëni minierën e të dhënave. Miningja e të dhënave ofron një shumëllojshmëri metodash matematikore dhe logjike që nuk u intereson se çfarë lloj të dhënash po hulumtohen. Kjo jep zgjidhjen e duhur në disa raste, por jo në të gjitha.

Kalimi në virtualitet dhe gjetja e kuptimit

Metodat e nxjerrjes së të dhënave bëhen kuptimplote sapo informacioni shkruhet në bazën e të dhënave dhe zhduket nga "fusha e shikimit". Tregtimi i pajisjeve kompjuterike është një detyrë interesante, por është thjesht një biznes. Sa mirë është i organizuar ai në kompani varet nga suksesi i saj.

Ndryshimet klimatike në planet dhe moti në një qytet të caktuar janë me interes për të gjithë, jo vetëm për ekspertët profesionistë të klimës. Mijëra sensorë marrin lexime të erës, lagështisë, presionit, të dhënave nga satelitët artificialë të Tokës dhe ka një histori të dhënash për vite e shekuj.

Të dhënat e motit nuk kanë të bëjnë vetëm me vendosjen nëse duhet të sillni ose jo një ombrellë në punë. Teknologjitë e Minierave të të Dhënave janë fluturimi i sigurt i një aeroplani, funksionimi i qëndrueshëm i një autostrade dhe furnizimi i besueshëm i produkteve të naftës nga deti.

Të dhënat "të papërpunuara" i dërgohen informacionitsistemi. Detyrat e Data Mining janë t'i kthejë ato në një sistem të sistemuar tabelash, të krijojë lidhje, të nxjerrë në pah grupe të dhënash homogjene dhe të zbulojë modele.

Klima, moti dhe të dhënat e papërpunuara
Klima, moti dhe të dhënat e papërpunuara

Metodat matematikore dhe logjike që nga ditët e analitikës sasiore OLAP (Përpunimi analitik në internet) kanë treguar prakticitetin e tyre. Këtu, teknologjia ju lejon të gjeni kuptimin dhe të mos e humbni atë, si në shembullin e shitjes së pajisjeve kompjuterike.

Për më tepër, në detyrat globale:

  • biznes transnacional;
  • menaxhimi i transportit ajror;
  • studim i zorrëve të tokës ose problemeve sociale (në nivel shtetëror);
  • studim i efektit të barnave në një organizëm të gjallë;
  • parashikimi i pasojave të ndërtimit të një ndërmarrje industriale, etj.

Teknologjitë e minierës së të dhënave dhe kthimi i të dhënave "të pakuptimta" në të dhëna reale që ju lejojnë të merrni vendime objektive është e vetmja mundësi.

Mundësitë njerëzore përfundojnë aty ku ka një sasi të madhe informacioni të papërpunuar. Sistemet e minierës së të dhënave humbasin dobinë e tyre aty ku kërkohet të shikohet, të kuptohet dhe të ndjehet informacioni.

Shpërndarja e arsyeshme e funksioneve dhe objektiviteti

Njeriu dhe kompjuteri duhet të plotësojnë njëri-tjetrin - kjo është një aksiomë. Shkrimi i një disertacioni është një prioritet për një person, dhe një sistem informacioni është një ndihmë. Këtu, të dhënat që ka teknologjia Data Mining janë heuristika, rregullat, algoritmet.

Përgatitja e një parashikimi javor të motit është prioriteti i sistemit të informacionit. Njeriu menaxhon të dhënat, por vendimet e tij i mbështet në rezultatet e llogaritjeve të sistemit. Ai kombinon metodat e Minierave të të Dhënave, klasifikimin e të dhënave të specializuara, kontrollin manual të aplikimit të algoritmeve, krahasimin automatik të të dhënave të kaluara, parashikimin matematikor dhe shumë njohuri dhe aftësi të njerëzve realë të përfshirë në aplikimin e sistemit të informacionit.

Njeriu dhe kompjuteri
Njeriu dhe kompjuteri

Teoria e probabilitetit dhe statistikat matematikore nuk janë fushat më "të preferuara" dhe më të kuptueshme të njohurive. Shumë specialistë janë shumë larg tyre, por metodat e zhvilluara në këto fusha japin rezultate pothuajse 100% të sakta. Duke aplikuar sisteme të bazuara në idetë, metodat dhe algoritmet e Data Mining, zgjidhjet mund të merren në mënyrë objektive dhe të besueshme. Përndryshe, është thjesht e pamundur të gjesh një zgjidhje.

Faraonët dhe misteret e shekujve të kaluar

Historia u rishkrua periodikisht:

  • shtetet - për hir të interesave të tyre strategjike;
  • shkencëtarët autoritativë - për hir të besimeve të tyre subjektive.

Është e vështirë të dallosh se çfarë është e vërtetë dhe çfarë është e rreme. Përdorimi i Data Mining na lejon të zgjidhim këtë problem. Për shembull, teknologjia e ndërtimit të piramidave u përshkrua nga kronistët dhe u studiua nga shkencëtarët në shekuj të ndryshëm. Jo të gjitha materialet janë marrë në internet, jo gjithçka është unike këtu dhe shumë të dhëna mund të mos kenë:

  • pika e përshkruar në kohë;
  • koha e shkrimit të përshkrimit;
  • datat në të cilat bazohet përshkrimi;
  • autor(ët), opinionet (lidhjet) të marra parasysh;
  • konfirmim i objektivitetit.

Bbiblioteka, tempuj dhe "vende të papritura" mund të gjeni dorëshkrime nga shekuj të ndryshëm dhe dëshmi materiale të së kaluarës.

Qëllimi interesant: të bashkojmë gjithçka dhe të zbulojmë "të vërtetën". Veçori e problemit: informacioni mund të merret nga përshkrimi i parë nga një kronist, gjatë jetës së faraonëve, deri në shekullin aktual, në të cilin ky problem zgjidhet me metoda moderne nga shumë shkencëtarë.

Arsyetimi për përdorimin e Minierave të të Dhënave: puna manuale nuk është e mundur. Shumë sasi:

  • burime informacioni;
  • gjuhët e përfaqësimit;
  • studiuesit që përshkruajnë të njëjtën gjë në mënyra të ndryshme;
  • datat, ngjarjet dhe kushtet;
  • probleme të korrelacionit të termit;
  • analiza e statistikave sipas grupeve të të dhënave me kalimin e kohës mund të ndryshojë, etj.

Në fund të shekullit të kaluar, kur një tjetër fiasko e idesë së inteligjencës artificiale u bë e dukshme jo vetëm për laikët, por edhe për një specialist të sofistikuar, u shfaq ideja: "të rikrijosh personalitetin".

Për shembull, sipas veprave të Pushkinit, Gogolit, Chekhovit, formohet një sistem i caktuar rregullash, logjikash sjelljeje dhe krijohet një sistem informacioni që mund t'u përgjigjet disa pyetjeve siç do t'u përgjigjej një personi: Pushkin, Gogol ose Çehov. Teorikisht, një detyrë e tillë është interesante, por në praktikë është jashtëzakonisht e vështirë për t'u zbatuar.

Megjithatë, ideja e një detyre të tillë sugjeron një ide shumë praktike: "si të krijoni një kërkim inteligjent informacioni". Interneti është shumë burime në zhvillim, një bazë të dhënash e madhe dhe kjo është një mundësi e shkëlqyer për të aplikuar Data Mining në kombinim me njerëzit.logjika në formatin e zhvillimit të përbashkët.

Makina dhe njeriu së bashku
Makina dhe njeriu së bashku

Një makineri dhe një burrë çift është një detyrë e shkëlqyer dhe një sukses i padyshimtë në fushën e "arkeologjisë së informacionit", gërmime me cilësi të lartë në të dhëna dhe rezultate që do të vënë diçka në dyshim, por pa dyshim do t'ju lejojnë për të fituar njohuri të reja dhe do të jetë i kërkuar në shoqëri.

Recommended: