El desenvolupament de la tecnologia de la informació aporta resultats pràctics. Però tasques com trobar, analitzar i utilitzar informació encara no han rebut una eina eficaç d' alta qualitat. Hi ha eines analítiques i quantitatives, realment funcionen. Però encara no s'ha produït una revolució qualitativa en l'ús de la informació.
Molt abans de l'arribada de la tecnologia informàtica, una persona necessitava processar grans quantitats d'informació i ho va fer amb el millor de la seva experiència i de les capacitats tècniques disponibles.
El desenvolupament de coneixements i habilitats sempre ha donat resposta a necessitats reals i correspon a les tasques actuals. La mineria de dades és un nom col·lectiu que s'utilitza per referir-se a un conjunt de mètodes per descobrir coneixements de dades desconeguts, no trivials, pràcticament útils i accessibles, necessaris per prendre decisions en diferents àmbits de l'activitat humana.
Humà, intel·ligència, programació
Una persona sempre sap com actuar en qualsevol situació. La ignorància o una situació desconeguda no li impedeix prendre una decisió. Es pot qüestionar l'objectivitat i la raonabilitat de qualsevol decisió humana, però s'acceptarà.
La intel·ligència es basa en: "mecanisme" hereditari, coneixements adquirits, actius. El coneixement s'aplica per resoldre problemes que sorgeixen davant d'una persona.
- La intel·ligència és un conjunt únic de coneixements i habilitats: oportunitats i fonaments per a la vida i el treball humans.
- La intel·ligència està en constant evolució i les accions humanes tenen un impacte en altres persones.
La programació és el primer intent de formalitzar la representació de dades i el procés de creació d'algorismes.
La intel·ligència artificial (IA) és una pèrdua de temps i recursos, però els resultats dels intents infructuosos del segle passat en el camp de la IA es van mantenir a la memòria, es van utilitzar en diversos sistemes experts (intel·ligents) i es van transformar, en particular, en algorismes (regles) i anàlisi de dades matemàtiques (lògics) i mineria de dades.
Informació i la recerca habitual d'una solució
Una biblioteca normal és un dipòsit de coneixement, i la paraula i els gràfics impresos encara no han donat la mà a la tecnologia informàtica. Els llibres de física, química, mecànica teòrica, disseny, història natural, filosofia, ciències naturals, botànica, llibres de text, monografies, treballs de científics, materials de conferències, informes sobre treballs de desenvolupament, etc. són sempre rellevants i fiables.
La biblioteca té moltes fonts diferents que difereixenforma de presentació del material, origen, estructura, contingut, estil de presentació, etc.
Exteriorment, tot és visible (llegible, accessible) per a la comprensió i el seu ús. Pots resoldre qualsevol problema, configurar correctament la tasca, justificar la solució, escriure un assaig o un treball de quadrimestre, seleccionar material per a un diploma, analitzar fonts sobre el tema d'una tesi o un informe científic i analític.
Qualsevol problema d'informació es pot resoldre. Amb la deguda perseverança i habilitat, s'obtindrà un resultat precís i fiable. En aquest context, la mineria de dades és un enfocament completament diferent.
A més del resultat, una persona rep "enllaços actius" a tot el que s'ha vist en el procés d'assolir l'objectiu. Es poden fer referència a les fonts que va utilitzar per resoldre el problema i ningú discutirà el fet de l'existència de la font. Això no és una garantia d'autenticitat, però és un testimoni segur de qui la responsabilitat de l'autenticitat està "desabonada". Des d'aquest punt de vista, Data Mining significa grans dubtes sobre la fiabilitat i cap enllaç "actiu".
En resoldre diversos problemes, una persona obté resultats i amplia el seu potencial intel·lectual a molts "enllaços actius". Si una tasca nova "activa" un enllaç ja existent, la persona sabrà com resoldre'l: no cal tornar a cercar res.
"Enllaç actiu" és una associació fixa: com i què fer en un cas concret. El cervell humà recorda automàticament tot allò que li sembla potencialment interessant, útil.o és probable que sigui necessari en el futur. En molts aspectes, això passa a nivell subconscient, però tan bon punt sorgeix una tasca que es pot associar amb un "enllaç actiu", apareix instantàniament a la ment i s'obtindrà una solució sense cercar informació addicional. La mineria de dades és sempre una repetició de l'algorisme de cerca i aquest algorisme no canvia.
Cerca habitual: problemes "artístics"
La biblioteca de matemàtiques i cercar-hi informació és una tasca relativament feble. Trobar d'una manera o altra per resoldre una integral, construir una matriu o realitzar l'operació de sumar dos nombres imaginaris és laboriós, però senzill. Heu d'ordenar una sèrie de llibres, molts dels quals estan escrits en un idioma específic, trobar el text adequat, estudiar-lo i obtenir la solució necessària.
Amb el temps, l'enumeració es familiaritzarà i l'experiència acumulada us permetrà navegar per la informació de la biblioteca i altres problemes matemàtics. Aquest és un espai d'informació limitat de preguntes i respostes. Un tret característic: aquesta recerca d'informació acumula coneixements per resoldre problemes similars. La recerca d'informació d'una persona deixa rastres ("enllaços actius") a la seva memòria sobre possibles solucions a altres problemes.
A la ficció, troba la resposta a la pregunta: "Com vivia la gent al gener de 1248?" molt dur. Encara és més difícil respondre a la pregunta de què hi havia als prestatges de les botigues i com s'organitzava el comerç d'alimentació. Fins i tot si algun escriptor va escriure sobre això de manera clara i directa a la seva novel·la, si es podia trobar el nom d'aquest escriptor, llavors els dubtesla fiabilitat de les dades rebudes es mantindrà. La fiabilitat és una característica crítica de qualsevol quantitat d'informació. La font, l'autor i les proves que exclouen la falsedat del resultat són importants.
Circumstàncies objectives d'una situació particular
L'home veu, sent, sent. Alguns especialistes són fluids en un sentiment únic: la intuïció. L'enunciat del problema requereix informació, el procés de resolució del problema sovint s'acompanya d'un refinament de l'enunciat del problema. Aquest és el menor problema que comporta moure informació a les entranyes d'un sistema informàtic.
La biblioteca i els companys de treball són participants indirectes en el procés de decisió. El disseny del llibre (font), els gràfics del text, les característiques de dividir la informació en encapçalaments, notes a peu de pàgina per frases, l'índex de temes, la llista de fonts primàries - tot evoca associacions en una persona que afecten indirectament el procés de resolució. el problema.
El moment i el lloc per resoldre el problema és essencial. Una persona està disposada de manera que involuntàriament presta atenció a tot el que l'envolta en el procés de resolució d'un problema. Pot ser una distracció, o pot ser estimulant. Data Mining mai "entendrà".
Informació a l'espai virtual
Una persona sempre s'ha interessat només en la informació fiable sobre un esdeveniment, fenomen, objecte, algorisme per resoldre un problema. L'home sempre ha imaginat exactament com pot aconseguir l'objectiu desitjat.
L'aparició dels ordinadors i els sistemes d'informació hauria d'haver fet la vida més fàcil a una persona, però tot s'ha fet més complicat. La informació va migrar a les entranyes dels sistemes informàtics i va desaparèixer de la vista. Per seleccionar les dades necessàries, heu de crear un algorisme correcte o formular una consulta a la base de dades.
La pregunta ha de ser correcta. Només així podràs obtenir una resposta. Però hi ha dubtes sobre l'autenticitat. En aquest sentit, Data Mining és realment "excavacions", és "extracció d'informació". Així està de moda traduir aquesta frase. La versió russa és extracció de dades o tecnologia de mineria de dades.
En els treballs d'especialistes autoritzats, les tasques de Data Mining s'indiquen de la següent manera:
- classificació;
- agrupació;
- associació;
- seqüència;
- previsió.
Des del punt de vista de la pràctica que orienta una persona en el tractament manual de la informació, totes aquestes posicions són discutibles. En qualsevol cas, una persona processa la informació de manera automàtica i no pensa a classificar les dades, a compilar grups temàtics d'objectes (agrupament), a buscar patrons temporals (seqüència) o a predir el resultat.
Totes aquestes posicions en la ment humana estan representades pel coneixement actiu, que cobreix més posicions i utilitzen de manera dinàmica la lògica de processar les dades inicials. El subconscient d'una persona juga un paper important, sobretot quan és especialista en un camp concret del coneixement.
Exemple: venda a l'engròs d'equips informàtics
La tasca és senzilla. Hi ha diversosdesenes de proveïdors d'equips informàtics i perifèrics. Cadascun té una llista de preus en format xls (fitxer Excel), que es pot descarregar des del lloc web oficial del proveïdor. Cal crear un recurs web que llegeixi fitxers Excel, els converteixi en taules de bases de dades i permeti als clients seleccionar els productes desitjats als preus més baixos.
Els problemes sorgeixen immediatament. Cada proveïdor ofereix la seva pròpia versió de l'estructura i el contingut del fitxer xls. Podeu obtenir el fitxer baixant-lo des del lloc web del proveïdor, sol·licitant-lo per correu electrònic o obtenint un enllaç de descàrrega a través del vostre compte personal, és a dir, registrant-vos oficialment amb el proveïdor.
La solució del problema (al principi) és tecnològicament senzilla. En carregar fitxers (dades inicials), s'escriu un algorisme de reconeixement de fitxers per a cada proveïdor i les dades es col·loquen en una taula gran de dades inicials. Després de rebre totes les dades, després d'haver establert el mecanisme d'intercanvi continu (diari, setmanal o amb canvi) de dades noves:
- canviar l'assortiment;
- canvis de preu;
- aclariment de la quantitat en estoc;
- ajust dels termes de la garantia, especificacions, etc.
Aquí és on comencen els problemes reals. El cas és que el proveïdor pot escriure:
- portàtil Acer;
- portàtil Asus;
- Portàtil Dell.
Estem parlant del mateix producte, però de diferents fabricants. Com fer coincidir portàtil=portàtil o com eliminar Acer, Asus i Dell d'una línia de productes?
Perhuman no és un problema, però com "entendrerà" l'algoritme que Acer, Asus, Dell, Samsung, LG, HP, Sony són marques comercials o proveïdors? Com combinar "impressora" i impressora, "escàner" i "MFP", "copiadora" i "MFP", "auriculars" amb "auriculars", "accessoris" amb "accessoris"?
La creació d'un arbre de categories basat en dades d'origen (fitxers font) ja és un problema quan cal que tot sigui automàtic.
Mostreig de dades: excavacions del "recent abocat"
S'ha resolt la tasca de crear una base de dades de proveïdors d'equips informàtics. S'ha construït un arbre de categories, funciona una taula comuna amb ofertes de tots els proveïdors.
Tasques típiques d'extracció de dades en el context d'aquest exemple:
- cerqueu un producte al preu més baix;
- seleccioneu l'article amb el cost i el preu d'enviament més baixos;
- anàlisi de productes: característiques i preus per criteris.
En el treball real d'un gestor que utilitza dades de diverses desenes de proveïdors, hi haurà moltes variacions d'aquestes tasques, i encara més situacions reals.
Per exemple, hi ha un proveïdor "A" que ven ASUS VivoBook S15: prepagament, lliurament 5 dies després de la recepció real dels diners. Hi ha un proveïdor "B" del mateix producte del mateix model: pagament a la recepció, lliurament després de la celebració del contracte en el termini d'un dia, el preu és una vegada i mitja més gran.
Comença la mineria de dades: "excavacions". Expressions figuratives: "excavacions" o "mineria de dades" són sinònims. Es tracta de com obtenir un motiu per prendre una decisió.
Els proveïdors "A" i "B" tenen un historial de lliuraments. Grauprepagament en el primer cas contra pagament en recepció en el segon cas, tenint en compte que la fallada de lliurament en el segon cas és un 65% superior. El risc de sancions per part del client és més alt/menor. Com i què determinar i quina decisió prendre?
D' altra banda: la base de dades la van crear un programador i un gestor. Si el programador i el gestor han canviat, com determinar l'estat actual de la base de dades i aprendre a utilitzar-lo correctament? També hauràs de fer mineria de dades. La mineria de dades ofereix una varietat de mètodes matemàtics i lògics als quals no els importa quin tipus de dades s'estan investigant. Això dóna la solució correcta en alguns casos, però no en tots.
Passer a la virtualitat i trobar sentit
Els mètodes de mineria de dades adquireixen sentit tan bon punt la informació s'escriu a la base de dades i desapareix del "camp de visió". El comerç d'equips informàtics és una tasca interessant, però només és un negoci. La seva organització a l'empresa depèn del seu èxit.
Els canvis climàtics al planeta i el clima d'una ciutat en concret són d'interès per a tothom, no només per als experts climàtics professionals. Milers de sensors fan lectures de vent, humitat, pressió, dades de satèl·lits artificials de la Terra i hi ha una història de dades durant anys i segles.
Les dades meteorològiques no només consisteixen a decidir si es porta o no un paraigua a la feina. Les tecnologies de mineria de dades són el vol segur d'un avió de línia, el funcionament estable d'una autopista i el subministrament fiable de productes petroliers per mar.
Les dades "en brut" s'envien a la informaciósistema. Les tasques de Data Mining són convertir-les en un sistema sistematitzat de taules, establir enllaços, destacar grups de dades homogènies i detectar patrons.
Els mètodes matemàtics i lògics des de l'època de l'anàlisi quantitativa OLAP (On-line Analytical Processing) han demostrat la seva practicitat. Aquí, la tecnologia et permet trobar el sentit i no perdre'l, com en l'exemple de la venda d'equips informàtics.
A més, en tasques globals:
- empresa transnacional;
- gestió del transport aeri;
- estudi de les entranyes de la terra o problemes socials (a nivell estatal);
- estudi de l'efecte de les drogues en un organisme viu;
- predir les conseqüències de la construcció d'una empresa industrial, etc.
Les tecnologies
Data Mine i convertir dades "sense sentit" en dades reals que us permetin prendre decisions objectives és l'única opció.
Les possibilitats humanes acaben on hi ha una gran quantitat d'informació bruta. Els sistemes de mineria de dades perden la seva utilitat allà on es requereix per veure, entendre i sentir informació.
Distribució raonable de funcions i objectivitat
L'home i l'ordinador s'han de complementar mútuament: aquest és un axioma. Escriure una tesi és una prioritat per a una persona, i un sistema d'informació és una ajuda. Aquí, les dades que té la tecnologia Data Mining són heurístiques, regles i algorismes.
Elaborar una previsió meteorològica setmanal és la prioritat del sistema d'informació. L'home gestiona les dades, però basa les seves decisions en els resultats dels càlculs del sistema. Combina mètodes de mineria de dades, classificació de dades especialitzada, control manual de l'aplicació d'algorismes, comparació automàtica de dades passades, previsió matemàtica i molts coneixements i habilitats de persones reals implicades en l'aplicació del sistema d'informació.
La teoria de la probabilitat i l'estadística matemàtica no són les àrees de coneixement més "favorides" i comprensibles. Molts especialistes estan molt lluny d'ells, però els mètodes desenvolupats en aquestes àrees donen resultats gairebé 100% correctes. Aplicant sistemes basats en les idees, mètodes i algorismes de Data Mining, es poden obtenir solucions de manera objectiva i fiable. En cas contrari, simplement és impossible trobar una solució.
Faraons i misteris dels segles passats
La història es va reescriure periòdicament:
- estats - pel bé dels seus interessos estratègics;
- científics autoritzats: pel bé de les seves creences subjectives.
És difícil saber què és cert i què és fals. L'ús de Data Mining ens permet resoldre aquest problema. Per exemple, la tecnologia de construcció de piràmides va ser descrita pels cronistes i estudiada pels científics en diferents segles. No tots els materials han arribat a Internet, no tot és únic aquí i moltes dades poden no tenir:
- punt en el temps descrit;
- hora d'escriure la descripció;
- dates en què es basa la descripció;
- autor(s), opinions (enllaços) en compte;
- confirmació de l'objectivitat.
Bbiblioteques, temples i "llocs inesperats" podeu trobar manuscrits de diferents segles i proves materials del passat.
Objectiu interessant: posar-ho tot junt i desenterrar la "veritat". Característica del problema: la informació es pot obtenir des de la primera descripció d'un cronista, durant la vida dels faraons, fins al segle actual, en què aquest problema és resolt per mètodes moderns per molts científics.
Justificació de l'ús de la mineria de dades: el treball manual no és possible. Massa quantitats:
- fonts d'informació;
- idiomes de representació;
- investigadors que descriuen el mateix de diferents maneres;
- dates, esdeveniments i condicions;
- problemes de correlació de termes;
- l'anàlisi de les estadístiques per grups de dades al llarg del temps pot variar, etc.
A finals del segle passat, quan un altre fiasco de la idea de la intel·ligència artificial es va fer evident no només per al profà, sinó també per a un especialista sofisticat, va sorgir la idea: "recrear la personalitat".
Per exemple, segons les obres de Puixkin, Gogol, Txèkhov, es forma un determinat sistema de regles, lògiques de comportament i es crea un sistema d'informació que pot respondre a determinades preguntes com ho faria una persona: Puixkin, Gogol o Txèkhov. Teòricament, aquesta tasca és interessant, però a la pràctica és extremadament difícil d'implementar.
No obstant això, la idea d'una tasca d'aquest tipus suggereix una idea molt pràctica: "com crear una cerca intel·ligent d'informació". Internet és un munt de recursos en desenvolupament, una base de dades enorme i aquesta és una gran oportunitat per aplicar la mineria de dades en combinació amb humans.lògica en el format de desenvolupament conjunt.
Una màquina i un home emparellats és una tasca excel·lent i un èxit indubtable en el camp de l'"arqueologia de la informació", excavacions de gran qualitat en dades i resultats que posaran alguna cosa en dubte, però que sens dubte us permetran per obtenir nous coneixements i seran demandats a la societat.