Has conegut aquest concepte més d'una vegada a la teva vida si haguessis de treballar amb textos. En particular, podeu recórrer a calculadores en línia que realitzen exactament l'anàlisi de freqüència del text. Aquestes eines útils mostren quantes vegades apareix un caràcter o una lletra en qualsevol passatge del text. Sovint també es mostra un percentatge. Per què és necessari això? Com contribueix l'anàlisi de freqüència del text al "craqueig" de xifrats simples? Quina és la seva essència, qui la va inventar? Respondrem aquestes i altres preguntes importants sobre el tema al llarg de l'article.
Definició
L'anàlisi de freqüència és una de les varietats de criptoanàlisi. Es basa en el supòsit dels científics sobre l'existència d'una distribució estadística no trivial de caràcters individuals i les seves seqüències regulars tant en text senzill com en xifrat.
Es creu que aquesta distribució, fins a la substitució de caràcters individuals, també es conservarà en els processos de xifratge/desxifrat.
Característica del procés
Ara fem una ullada a l'anàlisi de freqüència en termes senzills. Això implica que el nombre d'ocurrències del mateix caràcter alfabètic en textos d'extensió suficient és el mateix en diferents textos escrits en el mateix idioma.
I ara què passa amb l'encriptació monoalfabètica? Se suposa que si hi ha un caràcter amb una probabilitat tan similar d'ocurrència a la secció amb text xifrat, és realista suposar que es tracta d'aquesta lletra xifrada.
Els seguidors de l'anàlisi de textos de freqüència apliquen el mateix raonament als digrames (seqüències de dues lletres). Trigrames: això és per al cas de xifres ja polialfabètiques.
Història del mètode
L'anàlisi de freqüència de paraules no és una troballa de la modernitat. És conegut pel món científic des del segle IX. La seva creació s'associa amb el nom d'Al-Kindi.
Però els casos coneguts d'aplicació del mètode d'anàlisi de freqüència pertanyen a un període molt posterior. L'exemple més cridaner aquí és el desxiframent de jeroglífics egipcis, produït l'any 1822 per J.-F. Champollion.
Si passem a la ficció, podem trobar moltes referències interessants a aquest mètode de desxifrat:
- Conan Doyle - "The Dancing Men".
- Jules Verne - "Els fills del capità Grant".
- Edgar Poe - "Infecció d'or".
No obstant això, des de mitjans del segle passat, la majoria dels algorismes utilitzats en xifrat s'han desenvolupat tenint en compte la seva resistència a aquesta criptoanàlisi de freqüència. Per tantavui en dia s'utilitzen més sovint només per formar futurs criptògrafs.
Mètode bàsic
Ara presentem l'anàlisi de la resposta de freqüència en detall. Aquest tipus d'anàlisi es basa directament en el fet que la prova consta de paraules, i les, al seu torn, de lletres. El nombre de lletres que omplen els alfabets nacionals és limitat. Les lletres només es poden llistar aquí.
Les característiques més importants d'aquest text seran tant la repetició de lletres, diversos bigrames, trigrames i n-grames, com la compatibilitat de diverses lletres entre si, l' alternança de consonants / vocals i altres varietats d'aquests símbols.
La idea principal dels mètodes és comptar les aparicions de possibles n-grams (indicats per nm) en textos senzills prou llargs per a l'anàlisi (indicats per T=t1t2…tl) composts per lletres de l'alfabet nacional (denotada per {a1, a2, …, an}). Tot l'anterior provoca alguns m-grams consecutius del text:
t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.
Si aquest és el nombre d'ocurrències del m-gram ai1ai2… objectiu en un text determinat T, i L és el nombre total de m-grams analitzats per l'investigador, llavors és possible establir empíricament que per L prou gran, les freqüències d'aquest m-gram seran poc diferents entre si.
Lletres de l'alfabet rus que apareixen amb freqüència
Però l'anàlisi temps-freqüència, malgrat el nom semblant, no té res a veure amb el tema de la nostra conversa. Aquest tipus d'anàlisi es realitza persenyals d'estacions de radar poc observables que utilitzen una transformada wavelet especial.
Ara tornem al tema principal. Quan feu una anàlisi de freqüència, podeu esbrinar quines lletres de l'alfabet rus es troben més sovint en textos força voluminosos (percentatge de 0,062 a 0,018):
- A.
- V.
- D.
- F.
- I.
- K.
- M.
- O.
- R.
- T.
- F.
- T.
- Sh.
- b.
- E.
- I.
Fins i tot s'ha introduït una regla mnemotècnica especial, que ajuda a aprendre les lletres més comunes de l'alfabet rus. Per fer-ho, n'hi ha prou de recordar només una paraula: "paller".
En casos generals, la freqüència d'ús de les lletres en termes percentuals s'estableix simplement: l'especialista compta quantes vegades la lletra apareix al text i després divideix el valor resultant pel nombre total de caràcters del text. I per expressar aquest valor com a percentatge, n'hi ha prou de multiplicar-lo per 100.
És important tenir en compte que la freqüència dependrà no només del volum del text, sinó també de la seva naturalesa. Per exemple, a les fonts tècniques la lletra "F" apareix molt més sovint que a la ficció. Per tant, per obtenir resultats objectius, un especialista ha d'escriure textos de diversa naturalesa i estil per a la recerca.
Bi-, tri-, quatre grams
En els textos significatius, també podeu trobar els més habituals (respectivament, els mésrepetida) combinacions de dues o més lletres. Els especialistes també han compilat diverses taules, que indiquen les freqüències de digrames similars de diversos alfabets.
Pel que fa al rus, l'anàlisi de freqüència de sistemes de textos voluminosos i significatius va permetre establir els bigrames i trigrames més comuns:
- EN.
- ST.
- PERÒ
- NOT.
- ON.
- RA.
- OV.
- KO.
- VO.
- STO.
- NOV
- ENO.
- TOV.
- OVA.
- OVO.
Relacions preferides de lletres entre si
I aquestes no són totes les possibilitats que l'anàlisi de freqüència pot oferir als investigadors de textos. Mitjançant la sistematització de la informació de taules similars de bigrames i trigrames, és possible extreure dades sobre les combinacions de lletres més habituals. O, en altres paraules, les seves relacions preferides entre ells.
Un estudi tan extens ja ha estat realitzat per experts. El seu resultat va ser una taula on, juntament amb cada lletra de l'abecedari, s'indicaven els seus veïns. A més, aquells personatges que sovint es troben tant immediatament abans com després. Les lletres de la taula no s'escriuen per casualitat. Més a prop del símbol, s'indiquen els veïns més freqüents i, a més, els més rars.
Considereu exemples:
- Lletra "A". Aquí es distingeixen les següents connexions preferides: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. A partir d'aquí veiem que més sovint abans de la "A" als textos hi ha "H" ("NA"). I després de "A" més sovint en textos en rus podem trobar "L"("AL").
- Lletra "M". Els experts han identificat aquestes connexions preferides: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
- Lletra "b". Les connexions preferides són les següents: "n-s-t-l-b-n-k-v-p-s-e-o-i".
- Lletra "Sh". Connexions preferides: "e-b-a-i-u-Sch-e-i-a".
- Lletra "P". Connexions preferides amb aquest símbol de l'alfabet rus: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
Què defineix l'anàlisi?
Els programes moderns d'anàlisi de textos de freqüència ajuden a estudiar grans volums d'una gran varietat d'articles, assaigs, passatges, etc. La informació següent es proporciona a l'investigador de manera estàndard:
- Nombre total de caràcters al text.
- Nombre d'espais utilitzats per l'autor.
- Nombre de dígits.
- Informació sobre els signes de puntuació utilitzats: punts, comes, etc.
- El nombre de lletres de cadascun dels alfabets disponibles: ciríl·lic, llatí, etc.
- Informació sobre la freqüència d'ús de cada lletra i símbol al text: el nombre de mencions i el percentatge en comparació amb tot el text.
Lluita contra la sobreoptimització i la sobresaturació
Per què es realitza l'anàlisi de freqüència de text? És només per curiositat: establir quins personatges del text escrit s'han trobat amb freqüència? No, l'aplicació principal de l'anàlisi és pràctica i es troba en un altre lloc.
Els N-grams inclouen no només bigrams i trigrames estables. Al mateixles categories inclouen paraules clau (etiquetes), col·locacions. És a dir, combinacions estables formades per dues o més paraules. Es distingeixen pel fet que aquestes composicions apareixen juntes al text i al mateix temps porten una certa càrrega semàntica.
Això juga a les mans d'especialistes en SEO sense escrúpols. En el seu treball, de vegades abusen de la repetició d'etiquetes i paraules clau al text per augmentar artificialment la rellevància d'una pàgina web concreta. Intenten enganyar el sistema amb aquest "truc": convertir una combinació natural amb la combinació habitual de paraules, tradicional per a la llengua russa ("comprar un abric de visó") en una de inconsistent. És a dir, s'obté reordenant les paraules en un N-gram tan natural ("comprar un abric de visó").
Però avui, els algorismes de cerca han après a detectar la sobreoptimització amb la mateixa eficàcia que l'excés de correu brossa: sobresaturació de text amb paraules clau, etiquetes que afecten la classificació dels resultats a la pàgina de cerca. Les pàgines sobreoptimitzades ara es troben, per contra, més baixes per la consulta de l'usuari. I la gent mateixa no tendeix a llegir sense sentit, sobresaturat amb etiquetes de text, preferint informació útil sobre un altre recurs.
Ajudar a l'anàlisi privada per als especialistes en SEO
Així, els filtres de text moderns dels motors de cerca avui donen preferència a aquelles pàgines d'Internet, la informació sobre les quals no només és fàcil de llegir, sinó que també és útil per als visitants. Per optimitzar el seu treball per als nous estàndards, especialistes en SEOi passar a l'anàlisi de freqüència del text. Avui en dia ho ofereixen molts serveis populars.
L'anàlisi de freqüència ajuda a revisar el text que s'està preparant per a la seva publicació per tal de ser informatiu. Elimineu la redundància innecessària d'etiquetes i frases clau. També us permet cridar l'atenció de l'autor sobre combinacions no naturals de paraules que desperten sospites als filtres de text dels motors de cerca.
L'anàlisi de la freqüència del text ajuda, doncs, a determinar la freqüència d'esment d'un personatge determinat a la font. El mètode s'utilitza avui en dia per avaluar la sobrecàrrega de text amb etiquetes, permutacions no naturals de paraules.