Què és la lingüística de corpus?

Taula de continguts:

Què és la lingüística de corpus?
Què és la lingüística de corpus?
Anonim

Fa diverses dècades, els científics només podien somiar amb automatitzar la investigació lingüística. El treball es va fer a mà, hi van participar un gran nombre d'estudiants, hi havia una probabilitat important d'error de "desatenció" i, el més important, tot va prendre molt, molt de temps.

Amb el desenvolupament de la tecnologia informàtica, va ser possible fer recerca molt més ràpid, i avui una de les àrees prometedores en l'estudi de la llengua és la lingüística de corpus. La seva característica principal és l'ús de grans quantitats d'informació textual, consolidada en una única base de dades, marcada d'una manera especial i anomenada corpus.

Avui, hi ha molts corpus creats amb diferents propòsits, basats en diferents materials lingüístics, que cobreixen des de milions fins a desenes de milers de milions d'unitats lèxiques. Aquesta direcció es reconeix com a prometedora i demostra un progrés significatiu en l'assoliment dels objectius aplicats i de recerca. Professionals, d'una manera o altra tractantllenguatge natural, es recomana que us familiaritzeu amb els corpus de text com a mínim a un nivell bàsic.

Història de la lingüística de corpus

La formació d'aquesta direcció està relacionada amb la creació del Brown Corps als EUA a principis dels anys 60 del segle passat. La col·lecció de textos constava només d'1 milió de formes de paraules, i avui un corpus d'aquest volum seria completament poc competitiu. Això es deu en gran part al ritme de desenvolupament de la tecnologia informàtica, així com a la demanda creixent de nous recursos de recerca.

A la dècada dels 90, la lingüística de corpus es va convertir en una disciplina plena i independent, es van compilar col·leccions de textos i es van marcar per a diverses desenes d'idiomes. Durant aquest període, per exemple, es va crear el British National Corpus per a 100 milions d'ús de paraules.

lingüística de corpus
lingüística de corpus

A mesura que es desenvolupa aquesta direcció de la lingüística, el volum de textos es fa més gran (i arriba a milers de milions d'unitats de vocabulari) i el marcatge es fa cada cop més divers. Avui, a l'espai d'Internet, pots trobar corpus de parla oral i escrita, multilingües i didàctiques, centrats en la ficció o la literatura acadèmica, així com moltes altres varietats.

Quins casos hi ha

Els tipus de corpus en lingüística de corpus es poden representar de diverses maneres. És intuïtivament clar que la base per a la classificació pot ser l'idioma dels textos (rus, alemany), el mode d'accés (codi obert, codi tancat, comercial), el gènere del material d'origen (ficció).literatura, documental, acadèmic, periodisme).

Mètodes de lingüística de corpus
Mètodes de lingüística de corpus

De manera interessant es realitza la generació de materials que representen la parla oral. Atès que l'enregistrament deliberat d'aquest discurs crearia condicions artificials per als enquestats i el material resultant no es podia anomenar "espontani", la lingüística de corpus moderna va anar a l'inrevés. El voluntari està equipat amb un micròfon, i durant el dia s'enregistren totes les converses en què participa. La gent del voltant, per descomptat, no pot saber que en el transcurs d'una conversa diària estan contribuint al desenvolupament de la ciència.

Més endavant, les gravacions d'àudio rebudes s'emmagatzemen al banc de dades i s'acompanyen de text imprès com una transcripció. D'aquesta manera, es fa possible el marcatge necessari per crear un corpus de parla parlada quotidiana.

Aplicació

On és possible utilitzar l'idioma, també és possible utilitzar corpus de text. El propòsit d'utilitzar mètodes de corpus en lingüística pot ser:

  • Crear programes de sentiment que s'utilitzen àmpliament en política i negocis per fer un seguiment dels comentaris positius i negatius dels votants i dels clients, respectivament.
  • Connexió del sistema d'informació amb diccionaris i traductors per millorar-ne el rendiment.
  • Diverses tasques de recerca que contribueixen a la comprensió de l'estructura de la llengua, la història del seu desenvolupament i les prediccions del seu canvi en un futur proper.
  • Desenvolupament de sistemes d'extracció d'informació basats en morfologia,característiques sintàctiques, semàntiques i altres.
  • Optimització del treball de diversos sistemes lingüístics, etc.

Utilitzar shells

La interfície de recursos és similar a un motor de cerca típic i demana a l'usuari que introdueixi alguna paraula o combinació de paraules per cercar a la base d'informació. A més del formulari de sol·licitud exacte, podeu utilitzar la versió ampliada, que us permet trobar informació textual segons gairebé qualsevol criteri lingüístic.

Lingüística informàtica i de corpus
Lingüística informàtica i de corpus

La base per a la cerca pot ser:

  • pertanyent a un determinat grup de parts del discurs;
  • característiques gramaticals;
  • semàntica;
  • colors estilístics i emocionals.

A més, podeu combinar criteris de cerca per a una seqüència de paraules: per exemple, trobar totes les ocurrències d'un verb en temps present, primera persona, singular seguida de la preposició "en" i un substantiu en cas acusatiu. La resolució d'una tasca tan senzilla pren a l'usuari uns quants segons i només requereix uns quants clics del ratolí als camps indicats.

Procés de creació

La recerca en si es pot realitzar tant en tots els subcorpus, com en un, específicament seleccionat, en funció de les necessitats a l'hora d'aconseguir un objectiu concret:

  1. En primer lloc, es determina quins textos seran la base del corpus. Amb finalitats pràctiques, sovint s'utilitzen materials periodístics, diaris i comentaris a Internet. En projectes de recerca, la majoriadiversos tipus de corpus, però els textos s'han de seleccionar sobre una base comuna.
  2. El conjunt de textos resultant es processa prèviament, es corregeixen els errors, si n'hi ha, s'elabora una descripció bibliogràfica i extralingüística del text.
  3. Tota la informació no textual es filtra: s'eliminen gràfics, imatges i taules.
  4. Les fitxes, normalment paraules, s'assignen per a un posterior processament.
  5. Finalment, es realitza el marcatge morfològica, sintàctica i altres del conjunt d'elements resultant.

El resultat de totes les operacions realitzades és una estructura sintàctica amb un conjunt d'elements distribuïts sobre ella, per a cadascun dels quals es defineix una part de la parla, gramaticals i, en alguns casos, semàntiques.

Dificultats per crear casos

És important entendre que per obtenir un corpus no n'hi ha prou amb reunir moltes paraules o frases. D'una banda, cal equilibrar un recull de textos, és a dir, presentar diferents tipus de textos en unes proporcions determinades. D' altra banda, el contingut del cas s'ha de marcar d'una manera especial.

Lingüística de corpus de Zakharov
Lingüística de corpus de Zakharov

La primera qüestió es resol per acord: per exemple, la col·lecció inclou un 60% de textos de ficció, un 20% de documentals, una certa proporció es dóna a la presentació escrita de discurs oral, actes legislatius, articles científics, etc.. La recepta ideal per a un corpus equilibrat avui no existeix.

La segona pregunta sobre l'etiquetatge de contingut és més difícil de resoldre. Hi ha programes i algorismes especials utilitzats per a l'etiquetatge automàtic de textos, però no donen un resultat del 100%, poden provocar errors i requereixen un refinament manual. Les oportunitats i els problemes per resoldre aquest problema es descriuen amb detall al treball de V. P. Zakharov sobre lingüística de corpus.

L'etiquetatge de text es realitza a diversos nivells, que enumerarem a continuació.

Marcat morfològic

Des del banc de l'escola, recordem que en la llengua russa hi ha diferents parts de la parla, i cadascuna d'elles té les seves característiques. Per exemple, un verb té categories d'estat d'ànim i temps que no té un substantiu. Un parlant nadiu rebutja els substantius i conjuga els verbs sense dubtar-ho, però el treball manual no és adequat per marcar un corpus de 100 milions d'usos de paraules. Totes les operacions necessàries es poden realitzar mitjançant un ordinador, però per a això cal ensenyar-les.

El marcatge morfològic és necessari perquè l'ordinador "entengui" cada paraula com una part de la parla que té determinades característiques gramaticals. Atès que una sèrie de regles regulars funcionen en rus (com en qualsevol altre) idioma, és possible crear un procediment automàtic per a l'anàlisi morfològica posant una sèrie d'algorismes a la màquina. Tanmateix, hi ha excepcions a la regla, així com diversos factors de complicació. Com a resultat, l'anàlisi informàtica pura avui dia està lluny de ser ideal, i fins i tot un 4% d'errors donen un valor de 4 milions de paraules en un corpus de 100 milions d'unitats, que requereixen un perfeccionament manual.

Aquest problema el descriu detalladament el llibre "Corpus Linguistics" de V. P. Zakharov.

Marcat sintàctic

L'anàlisi o anàlisi sintàctica és un procediment que determina la relació de paraules en una frase. Amb l'ajuda d'un conjunt d'algorismes, és possible determinar el subjecte, el predicat, les addicions i els diferents torns de parla del text. En esbrinar quines paraules de la seqüència són principals i quines en depenen, podem extreure informació del text de manera eficient i entrenar la màquina perquè només retorni la informació que ens interessa en resposta a una sol·licitud de cerca.

laboratoris de lingüística de corpus a les universitats russes
laboratoris de lingüística de corpus a les universitats russes

Per cert, els motors de cerca moderns utilitzen això per donar números específics en lloc de textos llargs en resposta a consultes rellevants com: "quantes calories hi ha en una poma" o "distància de Moscou a Sant Petersburg". Tanmateix, per entendre fins i tot els fonaments bàsics del procés descrit, haureu de familiaritzar-vos amb la "Introducció a la lingüística de corpus" o un altre llibre de text bàsic.

Marcat semàntic

La semàntica d'una paraula és, en termes senzills, el seu significat. Un enfocament àmpliament aplicable en l'anàlisi semàntica és l'atribució d'etiquetes a una paraula, que reflecteix la seva pertinença a un conjunt de categories i subcategories semàntiques. Aquesta informació és valuosa per optimitzar els algorismes d'anàlisi de sentiments de text, fer referència automàtica i realitzar altres tasques mitjançant mètodes de lingüística de corpus.

Hi ha una sèrie d'"arrels" de l'arbre, que són paraules abstractes que tenensemàntica molt àmplia. A mesura que aquest arbre es ramifica, es formen nodes que contenen cada cop més elements lèxics específics. Per exemple, la paraula "criatura" es pot associar amb conceptes com "humà" i "animal". La primera paraula continuarà ramificant-se en diverses professions, termes de parentiu, nacionalitat, i la segona, en classes i tipus d'animals.

Ús de sistemes de recuperació d'informació

Les esferes d'ús de la lingüística de corpus cobreixen una gran varietat d'àmbits d'activitat. Els corpus s'utilitzen per compilar i corregir diccionaris, crear sistemes de traducció automàtica, resumir, extreure fets, determinar sentiments i altres processaments de text.

lingüística de corpus tipus de corpus
lingüística de corpus tipus de corpus

A més, aquests recursos s'utilitzen activament en l'estudi de les llengües del món i dels mecanismes de funcionament de la llengua en el seu conjunt. L'accés a grans volums d'informació prèviament preparada contribueix a l'estudi ràpid i exhaustiu de les tendències en el desenvolupament de les llengües, la formació de neologismes i girs de parla estables, els canvis en el significat de les unitats lèxiques, etc.

Com que treballar amb volums tan grans de dades requereix automatització, avui hi ha una estreta interacció entre la lingüística de l'ordinador i el corpus.

Corpus Nacional de la Llengua Russa

Aquest corpus (abreujat com a NKRC) inclou una sèrie de subcorpus que permeten utilitzar el recurs per resoldre una gran varietat de tasques.

Els materials de la base de dades de l'NCRA es divideixen en:

  • en publicacions als mitjans dels anys 90 i 2000anys, tant nacionals com estrangers;
  • enregistraments de la parla oral;
  • textos marcats accentològicament (és a dir, amb accents);
  • discurs dialectal;
  • obres poètiques;
  • materials amb marcatge sintàctic, etc.

El sistema d'informació també inclou subcorpus amb traduccions paral·leles d'obres del rus a l'anglès, alemany, francès i molts altres idiomes (i viceversa).

A més, la base de dades té una secció de textos històrics que representen la parla escrita en rus en diferents períodes del seu desenvolupament. També hi ha un corpus de formació que pot ser útil per als ciutadans estrangers per dominar la llengua russa.

El corpus nacional de la llengua russa inclou 400 milions d'unitats lèxiques i, en molts aspectes, està per davant d'una part important dels corpus de les llengües europees.

Perspectives

Un fet a favor de reconèixer aquest àmbit com a prometedor és la presència de laboratoris de lingüística de corpus a les universitats russes, així com a les estrangeres. Amb l'ús i la investigació en el marc dels recursos de recuperació d'informació considerats, s'associa el desenvolupament d'algunes àrees en l'àmbit de les altes tecnologies, sistemes de preguntes-respostes, però això s'ha comentat anteriorment.

Història de la lingüística de corpus
Història de la lingüística de corpus

Es preveu un major desenvolupament de la lingüística de corpus a tots els nivells, des del tècnic, pel que fa a la introducció de nous algorismes que optimitzin els processos de cerca i processament de la informació, ampliant les capacitats dels ordinadors, augmentant el funcionament operatiu.memòria, i acabant amb les domèstiques, a mesura que els usuaris troben cada cop més maneres d'utilitzar aquest tipus de recursos a la vida quotidiana i a la feina.

En conclusió

A mitjans del segle passat, l'any 2017 semblava un futur llunyà, en què les naus espacials naveguen per les extensions de l'Univers i els robots fan tota la feina per a les persones. En realitat, però, la ciència està plena de "punts en blanc" i està fent intents desesperats per respondre preguntes que han preocupat la humanitat durant segles. Les preguntes sobre el funcionament de la llengua ocupen un lloc d'interès aquí, i la lingüística de corpus i computacional ens pot ajudar a respondre-les.

El processament de grans quantitats de dades us permet detectar patrons que abans eren inaccessibles, predir el desenvolupament de determinades característiques del llenguatge, fer un seguiment de la formació de paraules gairebé en temps real.

A nivell pràctic global, els corpus es poden considerar, per exemple, com una eina potencial per avaluar el sentiment públic: Internet és una base de dades actualitzada contínuament de diversos textos creats per usuaris reals: són comentaris, ressenyes, articles., i moltes altres formes de parla.

A més, treballar amb corpora contribueix al desenvolupament dels mateixos mitjans tècnics que intervenen en la recuperació d'informació, que ens coneixen els serveis de Google o Yandex, la traducció automàtica, els diccionaris electrònics.

És segur dir que la lingüística de corpus només està fent els seus primers passos i es desenvoluparà ràpidament en un futur proper.

Recomanat: