Çfarë është linguistika e korpusit?

Përmbajtje:

Çfarë është linguistika e korpusit?
Çfarë është linguistika e korpusit?
Anonim

Disa dekada më parë, shkencëtarët mund të ëndërronin vetëm për automatizimin e kërkimit gjuhësor. Puna u krye me dorë, një numër i madh studentësh u përfshinë në të, kishte një probabilitet të konsiderueshëm për një gabim "pavëmendjeje" dhe më e rëndësishmja, e gjithë kjo mori shumë, shumë kohë.

Me zhvillimin e teknologjisë kompjuterike, u bë e mundur kryerja e kërkimit shumë më shpejt, dhe sot një nga fushat premtuese në studimin e gjuhës është linguistika e korpusit. Karakteristika e tij kryesore është përdorimi i sasive të mëdha të informacionit tekstual, të konsoliduar në një bazë të dhënash të vetme, të shënuar në një mënyrë të veçantë dhe të quajtur korpus.

Sot, ka shumë korpuse të krijuara për qëllime të ndryshme, bazuar në materiale të ndryshme gjuhësore, që mbulojnë nga miliona deri në dhjetëra miliarda njësi leksikore. Ky drejtim njihet si premtues dhe tregon progres të rëndësishëm në arritjen e qëllimeve të aplikuara dhe kërkimore. Profesionistë, në një mënyrë apo në një tjetër që kanë të bëjnë megjuhë natyrore, rekomandohet që të njiheni me korpuset e tekstit të paktën në një nivel bazë.

Historia e linguistikës së korpusit

Formimi i këtij drejtimi lidhet me krijimin e Korpusit Brown në SHBA në fillim të viteve 60 të shekullit të kaluar. Koleksioni i teksteve përbëhej nga vetëm 1 milion forma fjalësh dhe sot një korpus i një vëllimi të tillë do të ishte krejtësisht jo konkurrues. Kjo është kryesisht për shkak të ritmit të zhvillimit të teknologjisë kompjuterike, si dhe kërkesës në rritje për burime të reja kërkimore.

Në vitet '90, linguistika e korpusit u formua në një disiplinë të plotë dhe të pavarur, koleksione tekstesh u përpiluan dhe u shënuan për disa dhjetëra gjuhë. Gjatë kësaj periudhe, për shembull, Korpusi Kombëtar Britanik u krijua për 100 milionë përdorime fjalësh.

linguistika e korpusit
linguistika e korpusit

Ndërsa zhvillohet ky drejtim i gjuhësisë, vëllimi i teksteve bëhet më i madh (dhe arrin në miliarda njësi fjalori), dhe shënimi bëhet gjithnjë e më i larmishëm. Sot, në hapësirën e internetit, mund të gjeni korpuse të të folurit të shkruar dhe gojor, shumëgjuhësh dhe edukativ, të fokusuar në letërsinë artistike ose akademike, si dhe shumë lloje të tjera.

Çfarë rastesh ka

Llojet e korpusit në linguistikën e korpusit mund të përfaqësohen në disa mënyra. Është intuitivisht e qartë se baza për klasifikimin mund të jetë gjuha e teksteve (rusisht, gjermanisht), mënyra e hyrjes (burim i hapur, burim i mbyllur, komercial), zhanri i materialit burimor (fiction).letërsi, dokumentar, akademik, gazetari).

metodat e linguistikës së korpusit
metodat e linguistikës së korpusit

Në mënyrë interesante realizohet gjenerimi i materialeve që përfaqësojnë fjalën gojore. Meqenëse regjistrimi i qëllimshëm i një fjalimi të tillë do të krijonte kushte artificiale për të anketuarit, dhe materiali që rezulton nuk mund të quhej "spontan", linguistika moderne e korpusit shkoi në anën tjetër. Vullnetari është i pajisur me mikrofon dhe gjatë ditës regjistrohen të gjitha bisedat në të cilat ai merr pjesë. Njerëzit përreth, natyrisht, nuk mund ta dinë se gjatë një bisede të përditshme ata po kontribuojnë në zhvillimin e shkencës.

Më vonë, regjistrimet audio të marra ruhen në bankën e të dhënave dhe shoqërohen me tekst të printuar si një transkript. Në këtë mënyrë, shënimi i nevojshëm për të krijuar një korpus të të folurit të përditshëm bëhet i mundur.

Aplikacion

Aty ku është e mundur të përdoret gjuha, është gjithashtu e mundur të përdoren korpuset e tekstit. Qëllimi i përdorimit të metodave të korpusit në gjuhësi mund të jetë:

  • Krijimi i programeve të ndjenjave që përdoren gjerësisht në politikë dhe biznes për të gjurmuar reagimet pozitive dhe negative nga votuesit dhe klientët, respektivisht.
  • Lidhja e sistemit të informacionit me fjalorët dhe përkthyesit për të përmirësuar performancën e tyre.
  • Detyra të ndryshme kërkimore që kontribuojnë në të kuptuarit e strukturës së gjuhës, historisë së zhvillimit të saj dhe parashikimeve të ndryshimit të saj në të ardhmen e afërt.
  • Zhvillimi i sistemeve të nxjerrjes së informacionit bazuar në morfologjike,veçori sintaksore, semantike dhe të tjera.
  • Optimizimi i punës së sistemeve të ndryshme gjuhësore etj.

Përdorimi i predhave

Ndërfaqja e burimeve është e ngjashme me një motor kërkimi tipik dhe e nxit përdoruesin të fusë një fjalë ose kombinim fjalësh për të kërkuar në bazën e informacionit. Përveç formularit të saktë të kërkesës, mund të përdorni versionin e zgjeruar, i cili ju lejon të gjeni informacione tekstuale sipas pothuajse çdo kriteri gjuhësor.

kompjuteri dhe linguistika e korpusit
kompjuteri dhe linguistika e korpusit

Baza për kërkimin mund të jetë:

  • që i përkasin një grupi të caktuar pjesësh të të folurit;
  • veçori gramatikore;
  • semantikë;
  • ngjyrosje stilistike dhe emocionale.

Gjithashtu, ju mund të kombinoni kriteret e kërkimit për një sekuencë fjalësh: për shembull, gjeni të gjitha shfaqjet e një folje në kohën e tashme, vetën e parë, njëjës e ndjekur nga parafjala "në" dhe një emër në rasën kallëzore.. Zgjidhja e një detyre kaq të thjeshtë i merr përdoruesit disa sekonda dhe kërkon vetëm disa klikime të mausit në fushat e dhëna.

Procesi i krijimit

Vetë kërkimi mund të kryhet si në të gjitha nënkorpuset, ashtu edhe në një të zgjedhur në mënyrë specifike, në varësi të nevojave kur arrihet një qëllim specifik:

  1. Së pari, përcaktohet se cilat tekste do të përbëjnë bazën e korpusit. Për qëllime praktike, shpesh përdoren materiale gazetareske, gazetash, komente në internet. Në projektet kërkimore, më së shumtilloje të ndryshme korpusesh, por tekstet duhet të zgjidhen mbi një bazë të përbashkët.
  2. Grupi i teksteve që rezulton është i parapërpunuar, gabimet korrigjohen, nëse ka, përgatitet një përshkrim bibliografik dhe jashtëgjuhësor i tekstit.
  3. Të gjitha informacionet jotekstuale janë filtruar: grafika, fotografitë, tabelat janë fshirë.
  4. Xhenetat, zakonisht fjalët, ndahen për përpunim të mëtejshëm.
  5. Më në fund, kryhet shënimi morfologjik, sintaksor dhe të tjera të grupit të elementeve që rezulton.

Rezultati i të gjitha veprimeve të kryera është një strukturë sintaksore me një sërë elementesh të shpërndara mbi të, për secilën prej të cilave përcaktohen një pjesë e të folurit, veçori gramatikore dhe në disa raste semantike.

Vështirësi në krijimin e rasteve

Është e rëndësishme të kuptohet se për të marrë një korpus, nuk mjafton të bashkosh shumë fjalë ose fjali. Nga njëra anë, një koleksion tekstesh duhet të jetë i balancuar, domethënë të paraqesë lloje të ndryshme tekstesh në përmasa të caktuara. Nga ana tjetër, përmbajtja e lëndës duhet të shënohet në mënyrë të veçantë.

Linguistika e korpusit Zakharov
Linguistika e korpusit Zakharov

Çështja e parë zgjidhet me marrëveshje: për shembull, koleksioni përfshin 60% tekste artistike, 20% dokumentarë, një pjesë e caktuar i jepet prezantimit me shkrim të fjalës gojore, akteve legjislative, punimeve shkencore etj. Receta ideale për një korpus të ekuilibruar sot nuk ekziston.

Pyetja e dytë në lidhje me shënimin e përmbajtjes është më e vështirë për t'u zgjidhur. Ekzistojnë programe dhe algoritme speciale që përdoren për shënimin automatik të teksteve, por ato nuk japin një rezultat 100%, mund të shkaktojnë dështime dhe kërkojnë përpunim manual. Mundësitë dhe problemet në zgjidhjen e këtij problemi përshkruhen në detaje në veprën e V. P. Zakharov mbi linguistikën e korpusit.

Marrja e tekstit kryhet në disa nivele, të cilat do t'i rendisim më poshtë.

Marrja morfologjike

Nga banka e shkollës, kujtojmë se në gjuhën ruse ka pjesë të ndryshme të të folurit, dhe secila prej tyre ka karakteristikat e veta. Për shembull, një folje ka kategori të mënyrës dhe kohës që një emër nuk i ka. Një folës amtare refuzon emrat dhe bashkon foljet pa hezitim, por puna manuale nuk është e përshtatshme për të shënuar një korpus prej 100 milionë përdorimesh fjalësh. Të gjitha veprimet e nevojshme mund të kryhen nga një kompjuter, megjithatë, për këtë duhet të mësohen.

Marrja morfologjike është e nevojshme që kompjuteri të "kuptojë" çdo fjalë si një pjesë të ligjëratës që ka veçori të caktuara gramatikore. Meqenëse një numër rregullash të rregullta funksionojnë në rusisht (si në çdo gjuhë tjetër), është e mundur të ndërtohet një procedurë automatike për analizën morfologjike duke vendosur një numër algoritmesh në makinë. Megjithatë, ekzistojnë përjashtime nga rregulli, si dhe faktorë të ndryshëm ndërlikues. Si rezultat, analiza e pastër kompjuterike sot nuk është aspak ideale, dhe madje 4% gabime japin një vlerë prej 4 milionë fjalësh në një korpus prej 100 milionë njësive, që kërkojnë përpunim manual.

Ky problem përshkruhet në detaje nga libri i V. P. Zakharov "Corpus Linguistics".

Marrja sintaksore

Analiza sintaksore ose analiza është një procedurë që përcakton marrëdhënien e fjalëve në një fjali. Me ndihmën e një grupi algoritmesh, bëhet e mundur përcaktimi i temës, kallëzuesi, shtesat dhe kthesat e ndryshme të të folurit në tekst. Duke kuptuar se cilat fjalë në sekuencë janë kryesore dhe cilat janë të varura, ne mund të nxjerrim në mënyrë efikase informacionin nga teksti dhe ta trajnojmë makinën që të kthejë vetëm informacionin që na intereson në përgjigje të një kërkese kërkimi.

laboratorët e linguistikës së korpusit në universitetet ruse
laboratorët e linguistikës së korpusit në universitetet ruse

Meqë ra fjala, motorët modernë të kërkimit e përdorin këtë për të dhënë numra specifikë në vend të teksteve të gjata në përgjigje të pyetjeve përkatëse si: "sa kalori ka një mollë" ose "distanca nga Moska në Shën Petersburg". Megjithatë, për të kuptuar edhe vetë bazat e procesit të përshkruar, do t'ju duhet të njiheni me "Hyrje në Gjuhësinë e Korpusit" ose një libër tjetër themelor.

Marrja semantike

Semantika e një fjale është, në terma të thjeshtë, kuptimi i saj. Një qasje e zbatueshme gjerësisht në analizën semantike është atribuimi i etiketave për një fjalë, duke reflektuar përkatësinë e saj në një grup kategorish dhe nënkategori semantike. Një informacion i tillë është i vlefshëm për optimizimin e algoritmeve të analizës së ndjenjës së tekstit, referencën automatike dhe kryerjen e detyrave të tjera duke përdorur metoda të linguistikës së korpusit.

Ka një numër "rrënjësh" të pemës, të cilat janë fjalë abstrakte që kanësemantikë shumë e gjerë. Ndërsa kjo pemë degëzohet, formohen nyje që përmbajnë gjithnjë e më shumë elemente leksikore specifike. Për shembull, fjala "krijesë" mund të lidhet me koncepte të tilla si "njerëz" dhe "kafshë". Fjala e parë do të vazhdojë të degëzohet në profesione të ndryshme, kushte farefisnore, kombësie dhe e dyta - në klasa dhe lloje kafshësh.

Përdorimi i sistemeve të marrjes së informacionit

Sferat e përdorimit të linguistikës së korpusit mbulojnë një shumëllojshmëri të gjerë fushash të veprimtarisë. Korporatat përdoren për përpilimin dhe korrigjimin e fjalorëve, krijimin e sistemeve automatike të përkthimit, përmbledhjen, nxjerrjen e fakteve, përcaktimin e ndjenjave dhe përpunime të tjera teksti.

korpus linguistikë llojet e korpusit
korpus linguistikë llojet e korpusit

Përveç kësaj, burime të tilla përdoren në mënyrë aktive në studimin e gjuhëve të botës dhe mekanizmat e funksionimit të gjuhës në tërësi. Qasja në vëllime të mëdha informacioni të përgatitur paraprakisht kontribuon në studimin e shpejtë dhe gjithëpërfshirës të tendencave në zhvillimin e gjuhëve, formimin e neologjizmave dhe kthesat e qëndrueshme të të folurit, ndryshimet në kuptimet e njësive leksikore, etj.

Për shkak se puna me vëllime kaq të mëdha të dhënash kërkon automatizim, sot ekziston një ndërveprim i ngushtë midis kompjuterit dhe gjuhësisë së korpusit.

Korpusi Kombëtar i Gjuhës Ruse

Ky korpus (shkurtuar si NKRC) përfshin një numër nënkorpusesh që lejojnë përdorimin e burimit për të zgjidhur një shumëllojshmëri të gjerë detyrash.

Materialet në bazën e të dhënave NCRA ndahen në:

  • për publikimet në mediat e viteve '90 dhe 2000vjet, vendas dhe të huaj;
  • incizime të fjalës gojore;
  • tekste të shënuara në mënyrë theksuese (d.m.th. me shenja theksimi);
  • të folurit dialektor;
  • vepra poetike;
  • materiale me shënim sintaksor, etj.

Sistemi i informacionit përfshin gjithashtu nënkorpuse me përkthime paralele të veprave nga rusishtja në anglisht, gjermanisht, frëngjisht dhe shumë gjuhë të tjera (dhe anasjelltas).

Gjithashtu, baza e të dhënave ka një pjesë të teksteve historike që përfaqësojnë fjalimin e shkruar në rusisht në periudha të ndryshme të zhvillimit të saj. Ekziston edhe një korpus trajnimi që mund të jetë i dobishëm për shtetasit e huaj në zotërimin e gjuhës ruse.

Korpusi kombëtar i gjuhës ruse përfshin 400 milionë njësi leksikore dhe në shumë mënyra është përpara një pjese të konsiderueshme të korpusit të gjuhëve evropiane.

Perspektivat

Një fakt në favor të njohjes së kësaj fushe si premtuese është prania e laboratorëve të korpusit të gjuhësisë në universitetet ruse, si dhe në ato të huaja. Me përdorimin dhe kërkimin brenda kuadrit të burimeve të konsideruara të marrjes së informacionit, shoqërohet zhvillimi i disa fushave në fushën e teknologjive të larta, sistemeve pyetje-përgjigje, por kjo u diskutua më lart.

historia e linguistikës së korpusit
historia e linguistikës së korpusit

Parashikohet zhvillimi i mëtejshëm i gjuhësisë së korpusit në të gjitha nivelet, nga teknika, në drejtim të futjes së algoritmeve të reja që optimizojnë proceset e kërkimit dhe përpunimit të informacionit, zgjerimin e aftësive të kompjuterëve, rritjen e funksionimit.kujtesa, dhe duke përfunduar me ato shtëpiake, pasi përdoruesit gjejnë gjithnjë e më shumë mënyra për të përdorur këtë lloj burimi në jetën e përditshme dhe në punë.

Në përfundim

Në mesin e shekullit të kaluar, viti 2017 dukej si një e ardhme e largët, në të cilën anijet kozmike lundrojnë në hapësirat e Universit dhe robotët bëjnë të gjithë punën për njerëzit. Megjithatë, në realitet, shkenca është e mbushur me "njolla boshe" dhe po bën përpjekje të dëshpëruara për t'iu përgjigjur pyetjeve që kanë shqetësuar njerëzimin për shekuj me radhë. Pyetjet e funksionimit të gjuhës zënë vendin krenar këtu dhe korpusi dhe linguistika kompjuterike mund të na ndihmojnë t'u përgjigjemi atyre.

Përpunimi i sasive të mëdha të të dhënave ju lejon të zbuloni modele që më parë ishin të paarritshme, të parashikoni zhvillimin e veçorive të caktuara gjuhësore, të gjurmoni formimin e fjalëve pothuajse në kohë reale.

Në një nivel praktik global, korpuset mund të konsiderohen, për shembull, si një mjet i mundshëm për vlerësimin e ndjenjave publike - Interneti është një bazë të dhënash e përditësuar vazhdimisht e teksteve të ndryshme të krijuara nga përdorues të vërtetë: këto janë komente, rishikime, artikuj, dhe shumë forma të tjera të të folurit.

Përveç kësaj, puna me korporata kontribuon në zhvillimin e të njëjtave mjete teknike që përfshihen në marrjen e informacionit, të njohura për ne nga shërbimet e Google ose Yandex, përkthimi me makinë, fjalorët elektronikë.

Është e sigurt të thuhet se linguistika e korpusit po bën vetëm hapat e saj të parë dhe do të zhvillohet me shpejtësi në të ardhmen e afërt.

Recommended: