Analiza e tekstit të frekuencës: veçori dhe shembuj

Përmbajtje:

Analiza e tekstit të frekuencës: veçori dhe shembuj
Analiza e tekstit të frekuencës: veçori dhe shembuj
Anonim

E keni takuar këtë koncept më shumë se një herë në jetën tuaj nëse do t'ju duhej të punonit me tekste. Në veçanti, mund t'i drejtoheni kalkulatorëve në internet që kryejnë saktësisht analizën e frekuencës së tekstit. Këto mjete të dobishme tregojnë se sa herë shfaqet një karakter ose shkronjë e caktuar në çdo pjesë të tekstit. Shpesh tregohet edhe një përqindje. Pse është e nevojshme kjo? Si kontribuon analiza e frekuencës së tekstit në "krisjen" e shifrave të thjeshta? Cili është thelbi i tij, kush e shpiku? Ne do t'u përgjigjemi këtyre dhe pyetjeve të tjera të rëndësishme për këtë temë gjatë artikullit.

Përkufizim

Analiza e frekuencës është një nga varietetet e kriptanalizës. Ai bazohet në supozimin e shkencëtarëve për ekzistencën e një shpërndarjeje statistikore jo të parëndësishme të karaktereve individuale dhe sekuencave të tyre të rregullta si në tekstin e thjeshtë ashtu edhe në atë të koduar.

Besohet se një shpërndarje e tillë, deri në zëvendësimin e karaktereve individuale, do të ruhet edhe në proceset e enkriptimit/deshifrimit.

analiza e frekuencës së sistemeve
analiza e frekuencës së sistemeve

Karakteristika e procesit

Tani le t'i hedhim një sy analizës së frekuencës në terma të thjeshtë. Kjo nënkupton që numri i paraqitjeve të të njëjtit karakter alfabetik në tekste me gjatësi të mjaftueshme është i njëjtë në tekste të ndryshme të shkruara në të njëjtën gjuhë.

Dhe tani po në lidhje me enkriptimin monoalfabetik? Supozohet se nëse ka një karakter me një probabilitet kaq të ngjashëm të shfaqjes në seksionin me tekst të shifruar, atëherë është realiste të supozohet se është ajo shkronja e shifruar.

Ndjekësit e analizës së tekstit të frekuencës zbatojnë të njëjtin arsyetim për digramet (sekuencat me dy shkronja). Trigramet - kjo është për rastin e shifrave tashmë polialfabetike.

Historiku i metodës

Analiza e frekuencës së fjalëve nuk është një gjetje e modernitetit. Ajo është e njohur për botën shkencore që nga shekulli i IX-të. Krijimi i saj lidhet me emrin Al-Kindi.

Por rastet e njohura të aplikimit të metodës së analizës së frekuencës i përkasin një periudhe shumë më të vonë. Shembulli më i mrekullueshëm këtu është deshifrimi i hieroglifeve egjiptiane, prodhuar në 1822 nga J.-F. Champolion.

Nëse i drejtohemi trillimeve, mund të gjejmë shumë referenca interesante për këtë metodë deshifrimi:

  • Conan Doyle - "The Dancing Men".
  • Jules Verne - "Fëmijët e kapitenit Grant".
  • Edgar Poe - "Gold Bug".

Megjithatë, që nga mesi i shekullit të kaluar, shumica e algoritmeve të përdorura në enkriptim janë zhvilluar duke marrë parasysh rezistencën e tyre ndaj kriptanalizës së frekuencës së tillë. Prandaj ajosot ato përdoren më shpesh vetëm për trajnimin e kriptografëve të ardhshëm.

analiza e frekuencës së tekstit
analiza e frekuencës së tekstit

Metodë bazë

Le të paraqesim tani në detaje analizën e përgjigjes së frekuencës. Kjo lloj analize bazohet drejtpërdrejt në faktin se testi përbëhet nga fjalë, dhe ato, nga ana tjetër, nga shkronja. Numri i shkronjave që plotësojnë alfabetet kombëtare është i kufizuar. Shkronjat thjesht mund të renditen këtu.

Karakteristikat më të rëndësishme të një teksti të tillë do të jenë si përsëritja e shkronjave, bigrameve, trigrameve dhe n-grameve të ndryshme, si dhe përputhshmëria e shkronjave të ndryshme me njëra-tjetrën, alternimi i bashkëtingëlloreve / zanoreve etj. varietetet e këtyre simboleve.

Ideja kryesore e metodave është të numërohen dukuritë e n-grameve të mundshme (të shënuara me nm) në tekste të thjeshta mjaftueshëm për analiza (të shënuara me T=t1t2…tl) të përbëra nga shkronjat e alfabetit kombëtar (shënohet me {a1, a2, …, an}). Të gjitha sa më sipër shkaktojnë disa m-gram të njëpasnjëshëm të tekstit:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

Nëse ky është numri i dukurive të m-gram ai1ai2…qëllimi në një tekst të caktuar T, dhe L është numri total i m-gramëve të analizuar nga studiuesi, atëherë është e mundur të përcaktohet në mënyrë empirike se për L mjaftueshëm i madh, frekuencat për një m-gram të tillë do të jenë pak të ndryshme nga njëra-tjetra.

analiza e frekuencës
analiza e frekuencës

Shkronjat e shpeshta të alfabetit rus

Por analiza e frekuencës kohore, pavarësisht emrit të ngjashëm, nuk ka të bëjë fare me temën e bisedës sonë. Kjo lloj analize kryhet përsinjalet nga stacionet e radarëve me vëzhgim të ulët duke përdorur një transformim të veçantë valësh.

Tani le të kthehemi te tema kryesore. Kur kryeni një analizë të frekuencës, mund të zbuloni se cilat shkronja të alfabetit rus gjenden më shpesh në tekste mjaft voluminoze (përqindja nga 0,062 në 0,018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • Sh.
  • b.
  • E.
  • I.

Edhe një rregull i veçantë mnemonik është futur, i cili ndihmon për të mësuar shkronjat më të zakonshme të alfabetit rus. Për ta bërë këtë, mjafton të mbani mend vetëm një fjalë - "hayloft".

Në raste të përgjithshme, frekuenca e përdorimit të shkronjave në përqindje vendoset thjesht: specialisti numëron sa herë shkronja shfaqet në tekst, pastaj ndan vlerën që rezulton me numrin total të karaktereve në tekst. Dhe për ta shprehur këtë vlerë në përqindje, mjafton ta shumëzojmë me 100.

Është e rëndësishme të kihet parasysh se frekuenca do të varet jo vetëm nga vëllimi i tekstit, por edhe nga natyra e tij. Për shembull, në burimet teknike shkronja "F" shfaqet shumë më shpesh sesa në fiksion. Prandaj, për rezultate objektive, një specialist duhet të shtypë tekste të natyrave dhe stileve të ndryshme për kërkime.

programet e analizës së frekuencës së tekstit
programet e analizës së frekuencës së tekstit

Bi-, tri-, katër gram

Në tekstet kuptimplote, mund të gjeni edhe më të zakonshmet (përkatësisht, më tëtë përsëritura) kombinime të dy ose më shumë shkronjave. Specialistët kanë përpiluar edhe disa tabela, të cilat tregojnë frekuencat e digrameve të ngjashme të alfabeteve të ndryshme.

Sa i përket rusishtes, analiza e frekuencës së sistemeve të teksteve voluminoze kuptimplote bëri të mundur vendosjen e bigrameve dhe trigrameve më të zakonshme:

  • EN.
  • ST.
  • POR.
  • JO.
  • ON.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • E RE
  • ENO.
  • TOV.
  • OVA.
  • OVO.

Marrëdhëniet e preferuara të shkronjave me njëra-tjetrën

Dhe këto nuk janë të gjitha mundësitë që analiza e frekuencës mund t'u ofrojë studiuesve të tekstit. Duke sistemuar informacionin nga tabela të ngjashme të bigrameve dhe trigrameve, është e mundur të nxirren të dhëna për kombinimet më të zakonshme të shkronjave. Ose, me fjalë të tjera, marrëdhëniet e tyre të preferuara me njëri-tjetrin.

Një studim i tillë i gjerë tashmë është kryer nga ekspertë. Rezultati i saj ishte një tabelë ku, së bashku me secilën shkronjë të alfabetit, tregoheshin fqinjët e saj. Për më tepër, ato personazhe që gjenden shpesh si menjëherë para dhe pas tij. Shkronjat në tabelë nuk janë shkruar rastësisht. Më afër simbolit, tregohen fqinjët më të shpeshtë, më tej - më të rrallët.

Merrni parasysh shembuj:

  • Shkronja "A". Këtu dallohen lidhjet e mëposhtme të preferuara: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. Nga këtu shohim se më shpesh para "A" në tekste ka "H" ("NA"). Dhe pas "A" më shpesh në tekste në Rusisht mund të takojmë "L"("AL").
  • Shkronja "M". Ekspertët kanë identifikuar lidhje të tilla të preferuara: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • Shkronja "b". Lidhjet e preferuara janë si më poshtë: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • Shkronja "Sh". Lidhjet e preferuara: "e-b-a-i-u-Sch-e-i-a".
  • Shkronja "P". Lidhjet e preferuara me këtë simbol të alfabetit rus: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
analiza kohë-frekuencë
analiza kohë-frekuencë

Çfarë e përcakton analizën?

Programet moderne të analizës së tekstit me frekuencë ndihmojnë në studimin e vëllimeve të mëdha të një shumëllojshmërie të gjerë artikujsh, esesh, pasazhesh etj. Informacioni i mëposhtëm i jepet studiuesit si standard:

  • Numri total i karaktereve në tekst.
  • Numri i hapësirave të përdorura nga autori.
  • Numri i shifrave.
  • Informacion rreth shenjave të pikësimit të përdorura - pika, presje, etj.
  • Numri i shkronjave në secilin nga alfabetet e disponueshme - cirilik, latin, etj.
  • Informacion rreth shpeshtësisë së përdorimit të çdo shkronje dhe simboli në tekst - numri i përmendjeve dhe përqindja në krahasim me të gjithë tekstin.

Lufta kundër mbioptimizimit dhe mbingopjes

Pse kryhet analiza e frekuencës së tekstit? A është vetëm për qëllim kurioziteti - për të përcaktuar se cilët personazhe në tekstin e shkruar rezultoi se haseshin shpesh? Jo, zbatimi kryesor i analizës është praktik dhe qëndron diku tjetër.

N-gramët përfshijnë jo vetëm bigramet dhe trigramet e qëndrueshme. Për të njëjtën gjëkategoritë përfshijnë fjalë kyçe (etiketa), bashkëvendosje. Kjo është, kombinime të qëndrueshme që përbëhen nga dy ose më shumë fjalë. Ato dallohen nga fakti se kompozime të tilla ndodhin së bashku në tekst dhe në të njëjtën kohë mbajnë një ngarkesë të caktuar semantike.

Kjo është në dobi të specialistëve të paskrupullt të SEO. Në punën e tyre, ata ndonjëherë abuzojnë me përsëritjen e etiketave dhe fjalëve kyçe në tekst për të rritur artificialisht rëndësinë e një faqeje të caktuar ueb. Ata po përpiqen të mashtrojnë sistemin me një "mashtrim" të tillë: duke e kthyer një kombinim të natyrshëm me kombinimin e zakonshëm të fjalëve, tradicionale për gjuhën ruse ("blej një pallto vizon") në një kombinim jokonsistent. Kjo do të thotë, e përftuar nga riorganizimi i fjalëve në një gram kaq natyral N ("bli një pallto vizon").

Por sot, algoritmet e kërkimit kanë mësuar të zbulojnë optimizimin e tepërt në mënyrë po aq efektive sa mbispam-i - mbingopja e tekstit me fjalë kyçe, etiketa që ndikojnë në renditjen e rezultateve në faqen e kërkimit. Faqet e mbi-optimizuara tani, përkundrazi, renditen më poshtë nga pyetja e përdoruesit. Dhe vetë njerëzit nuk priren të lexojnë tekst të pakuptimtë, të mbingopur me etiketa, duke preferuar informacione të dobishme për një burim tjetër.

metoda e analizës së frekuencës
metoda e analizës së frekuencës

Ndihma e analizave private për specialistët e SEO

Kështu, filtrat modernë të tekstit të motorëve të kërkimit sot u japin përparësi atyre faqeve të internetit, informacioni në të cilin nuk është vetëm i lehtë për t'u lexuar, por edhe i dobishëm për vizitorët. Për të optimizuar punën e tyre për standarde të reja, specialistët e SEOdhe drejtohuni tek analiza e frekuencës së tekstit. Shumë shërbime të njohura e ofrojnë atë sot.

Analiza e frekuencës ndihmon në rishikimin e tekstit që përgatitet për botim për informim. Eliminoni tepricën e panevojshme të etiketave dhe frazave kyçe. Gjithashtu ju lejon të tërhiqni vëmendjen e autorit ndaj kombinimeve të panatyrshme të fjalëve që ngjallin dyshime në filtrat e tekstit të motorëve të kërkimit.

analiza e përgjigjes së frekuencës
analiza e përgjigjes së frekuencës

Analiza e frekuencës së tekstit ndihmon në përcaktimin e shpeshtësisë së përmendjes së një karakteri të caktuar në burim. Metoda përdoret sot për të vlerësuar mbingarkesën e tekstit me etiketa, ndërrime të panatyrshme të fjalëve.

Recommended: