Datizrace

Datizrace (angļu: Data mining) ir datu analīzes process ar mērķi identificēt apslēptus, atkārtotus šablonus (angļu: patterns) kādā datu grupā, izmantojot īpašas metodes.^[1] Atkārtotu šablonu identificēšana datos ir vērtīga, jo tie var liecināt par savstarpēju saistību jeb korelāciju starp datu punktiem / novērojumu vienībām.^[2] Vienlaikus, neprasmīga datizraces pielietošana var novest pie nederīgu vai pat maldīgu saistību atklāšanas, ko nereti dēvē par datu bagarēšanu (angļu: data dredging).^[3]

Datizrace ir daļa no plašāka zināšanu atklāšanas / iegūšanas procesa (angļu: knowledge discovery / extraction), kurā no datiem tiek iegūtas jaunas, netriviālas, praktiski lietderīgas zināšanas, kas nepieciešamas lēmumu pieņemšanā dažādās sfērās. ^[3] Šīs metodes plaši izmanto tādās jomās kā statistika, datu analīze, mašīnmācīšanās, datubāzes un citās interdisciplinārās, ar datorzinātnēm saistītās.jomās.

Vēsture

Termins Data mining radies 1978. gadā, bet mūsdienu traktējumā, tad guvis plašu ievērību, sākot ar 90. gadu pirmo pusi. Līdz tam datu analīzi veica ar statistikas palīdzību, un varēja apstrādāt nelielus datu apjomus. Datizrace ir plaša nozare, kas radusies un attīstījusies no tādām zinātņu jomām kā statistika, tēlu atpazīšana, mākslīgais intelekts, datubāzu teorija, mašīnapmācība utt.

Salīdzinājums ar citām datu analīzes metodēm

Tradicionalās datu analīzes metodes (statistika) un OLAP galvenokārt orientētas uz iepriekš formulētu hipotēžu pārbaudi un uz "raupju" izmeklēšanas analīzi, bet datizraces pamatā ir "ne uzreiz pamanāmu" likumsakarību meklēšana. Datizraces instrumenti var atrast šādas likumsakarības patstāvīgi, kā arī patstāvīgi izveidot hipotēzes par savstarpējām sakarībām.

Ja vairums statistisko metožu strādā ar neeksistējošiem lielumiem, izmantojot izlases vidējā koncepciju, tad datizrace darbojas ar reālām vērtībām

Ja salīdzina datizraci, statistiku un mašīnapmācību, tad statistika pamatā bāzējas uz teoriju, mašīnapmācība bāzējas uz apmācību, bet datizrace integrē teoriju un apmācību. Ja statistika koncentrējas uz hipotēžu pārbaudi, bet mašīnapamācība - uz apmācības aģentu darbības uzlabošanu, tad datizrace ir koncentrēta uz vienotu datu analīzes procesu, kas ietver datu attīrīšanu, apmācību, rezultātu integrāciju un vizualizāciju.

Datizraces process

Datizraces process parasti notiek divos vai trijos posmos:

Likumsakarību atrašana (brīva meklēšana)
Atrasto likumsakarību izmantošana, lai prognozētu nezināmās vērtības (prognozējošā modelēšana)
Izņēmumsituāciju analīze (likumsakarībās atrasto anomāliju noteikšana un izskaidrošana)

Datizraces uzdevumi

Ar likumsakarību (šablonu) atrašanu tiek risināti datizraces uzdevumi. Pēc iegūtās informācijas tipiem, datizraces uzdevumus iedala šādās grupās:

Klasifikācija (Classification)
Klāsterizācija (Clustering)
Asociācija (Associations)
Secība (Sequence)
Prognozēšana (Forecasting)
Noviržu noteikšana (Deviation Detection)
Novērtēšana (Estimation)
Saišu analīze (Link Analysis)
Vizualizācija (Visualization, Graph Mining)
Kopsavilkums (Summarization)

Pēc izvēlētās statēģijas, uzdevumus iedala:

apmācība ar skolotāju
apmācība bez skolotāja
citi

Datizraces metodes

Pastāv vairāki datizraces metožu veidi, piemēram, statistikas procedūras vai mašīnmācīšanās algoritmi.

Datizraces metodes var klasificēt dažādi. Piemēram, pēc tā, vai dati pēc datizraces tiek saglabāti vai arī tiek distilēti turpmākajai izmantošanai:

Tiešā datu izmantošana vai datu saglabāšana
- klāsteranalīze
- tuvākā kaimiņa metode
- k-tuvākā kaimiņa metode
- spriešana pēc analoģijas
Formālo likumsakarību atrašana un izmantošana vai šablonu distilācija
- loģiskās metodes
  - netiešie vaicājumi un analīzes
  - simboliskie likumi
  - lēmumu koki
  - ģenētiskie algoritmi
- vizualizācijas metodes
- šķērstabulācijas metodes
  - aģenti
  - Baijesa tīkli
  - šķērstabulu vizualizācija
- metodes, kas balstītas uz vienādojumiem
  - statistiskās metodes
  - neironu tīkli

Pēc matemātisko modeļu apmācības pieejas, datizraces metodes var arī iedalīt:

statistiskās metodes
kibernētiskās metodes

Praktiskais pielietojums

Biznesa uzdevumi (bankas, finanses, apdrošināšana, CRM, ražošana, sakari, elektroniskā komercija, mārketings u.c.)
Valsts līmeņa uzdevumi (personu meklēšana, kas izvairās no nodokļiem, līdzekļi cīņā pret terorismu)
Zinātniskie pētījumi (medicīna, bioloģija, ģenētika, bioinformātika, astronomija, ķīmija u.c.)
Web Mining, globalā tīmekļa uzdevumi (meklēšanas programmas, skaitītāji u.c.)
Text Mining - tekstu apstrāde
Call Mining - telefona zvanu apstrāde

Atsauces

↑ «Latvijas Nacionālais terminoloģijas portāls». Latvijas Nacionālais terminoloģijas portāls (latviešu). Skatīts: 2022-10-11.
↑ Han, J., Cheng, H., Xin, D.. "Frequent pattern mining: current status and future directions.". Data Mining and Knowledge Discovery 15: 56.
↑ ^3,0 ^3,1 Fayyad, U., Piatetsky-Shapiro, G., Smyth, P. (1996). "From Data Mining to Knowledge Discovery in Databases". AI Magazine, 17(3) 17: 39.

Šis ar informācijas tehnoloģijām saistītais raksts ir nepilnīgs. Jūs varat dot savu ieguldījumu Vikipēdijā, papildinot to.

[1] «Latvijas Nacionālais terminoloģijas portāls». Latvijas Nacionālais terminoloģijas portāls (latviešu). Skatīts: 2022-10-11.

[2] Han, J., Cheng, H., Xin, D.. "Frequent pattern mining: current status and future directions.". Data Mining and Knowledge Discovery 15: 56.

[:0-3] 3,0 ^3,1 Fayyad, U., Piatetsky-Shapiro, G., Smyth, P. (1996). "From Data Mining to Knowledge Discovery in Databases". AI Magazine, 17(3) 17: 39.

[1]

[2]

[3]