Daudzdimensiju analīze

Daudzdimensiju analīze ir datu analīzes process statistikā un ekonometrijā, kas sagrupē datus divās vai vairāk kategorijās: datu dimensijās un novērojumos. Piemēram, datu krājums par Latvijas iedzīvotāju skaitu reģionos konkrētā gadā ir uzskatāms par vienas dimensijas datiem. Savukārt Latvijas reģionu iedzīvotāju skaita izmaiņas pa gadiem ir divdimensiju datu krājums. Viens no daudzdimensiju analīzes piemēriem ir klasteru analīze.

Daudzās zinātnes jomās divdimensiju datu krājumus dēvē arī par paneļdatiem.^[1] Praksē par daudzdimensiju datiem bieži uzskata tikai tādus, kuros ir trīs vai vairāk dimensiju,^[2] kaut gan teorētiski pietiek ar divām vai vairāk dimensijām.

Daudzdimensiju statistiskā analīze

Daudzdimensiju statistiskā analīze (multivariate statistical analysis) aplūko statistiskās metodes, kas apraksta un analizē visdažādākā veida datus. Pamatā šīs metodes ir balstītas uz varbūtības modeli, kas pazīstams kā daudzdimensiju normālais sadalījums (multivariate normal distribution).^[3]

Daudzdimensiju statistiskā analīzes būtība un mērķi

Daudzi statistiskie pētījumi konfrontē analītiķi ar dažādu mainīgo lielumu datiem katram no indivīdiem. Dažreiz vērtību kopums vienam mainīgajam var gadīties, ka ir tuvu saistīts ar kādu citu vai citiem mainīgo vērtību kopumiem, kādreiz tāda saistība var vispār nemaz nebūt. Tāda veida variāciju saistību pētījumi (vai tieši šo saistību trūkums) ir viens no daudzdimensiju analīzes aspektiem. Otrs aspekts ir saistīts vairāk ar attiecībām starp indivīdiem nevis mainīgajiem. Var tikt uzdots jautājumi:

kādi indivīdi ir līdzīgi ņemot vērā mainīgo vērtības?

līdz kādai robežai eksistē līdzīgu indivīdu grupas un kā tādu grupu definēt?

kuri no indivīdiem neiederas grupā?

Tādējādi daudzdimensiju analīzes metodes var vispusīgi iedalīt divās grupās — vienas ar fokusu uz indivīdiem (vai indivīdu grupām) un otras ar fokusu uz mainīgajiem lielumiem. Piemēram, galveno komponentu analīze pēta, kuri mainīgie ir cieši saistīti (korelē) un kuri nav. No otras puses, piemēram, diskriminantu analīze pēta, cik tālu indivīdu grupas datu matricē atšķiras viena no otras tieši mainīgo lielumu vērtību kontekstā. Daudzdimensiju analīze sastāv no metožu krājuma, kas var tikt izmantotas, kad vairāki mērījumi tiek veikti uz katru objektu vai indivīdu ar vienu vai vairākām pārbaudēm. Praksē daudzdimensiju datu kopumi ir bieži sastopami, kaut arī tie varbūt netiek tieši kā tādi analizēti. Bet kādreiz ekskluzīvā viendimensiju procedūru izmantošana mūsdienās vairs nav attaisnojama, ņemot vērā plašo un lēto skaitļošanas tehnikas iespējas, lai apstrādātu dažādo datu apjomus. Tas tad arī var būt minēts par iemeslu, kādēļ daudzdimensiju analīze ir tik populāra un bieži izmantota mūsdienās, jo plaši ir pieejamas dažādas datora programmu paketes, lai veiktu nepieciešamās kalkulācijas. Ka daži piemēri no datoru programmu paketēm var tikt minēti — SPSS (Statistical Package for Social Sciences), GENSTAT, SAS, BMDP.^[4]

Daudzdimensiju statistiskās analīzes metožu veidi

Parimals Muhopadhjajs savā grāmatā „Multivariate Statistical Analysis” visas daudzdimensiju analīzes metodes ir iedalījis divos veidos:

1. Pakļautības metodes (dependence methods) tiek pielietotas gadījumā, ja interesē saistību meklēšana starp reaģējošo mainīgo (response variables) vai pakļauto mainīgo (dependent variables) kopumu vai kritēriju mērījumiem (criteria measures) un izskaidrojošo mainīgo (explanatory variables) vai paredzamo mainīgo (predictor variables) kopumu. Pakļautības metodes cenšas paredzēt reaģējošo mainīgo vai kritēriju mērījumu vērtības balstoties uz paskaidrojošiem mainīgajiem.

2. Savstarpējās atkarības metodes (interdependence methods) izmanto gadījumos, kad interesē savstarpējās saistības starp mainīgo kopumu, kuri ir bez jebkādas mainīgo klasifikācijas. Savstarpējās atkarības metodes to būtībā ir mazāk izskaidrojošas, jo parādību vai struktūru pamatdatus paskaidrošanā tās bieži vien izmanto datu reducēšanas apstrādi.^[5]

Pakļautības metodes (dependence methods)

1. Daudzkārtējā regresija (multiple/multivariate regression)

Daudzdimensiju regresija ir piemērota, kad mēs esam ieinteresēti pētīt reaģējošo mainīgo kopumu atkarību no paredzamo mainīgo kopuma, lai novērtētu vai paredzētu vidējās vērtības pakļautajiem mainīgajiem, balstoties uz paredzamo mainīgo zināmajām vērtībām.

2. Diskriminantu analīze (discriminant analysis)

Šī ir diskriminācijas problēma starp 2 un vairāk grupām. Pieņemot, ka mums ir novēroto mērījumu vektors p, kas ir apzīmēts kā X=(X1,...,Xp)’, un kas, kā ir zināms, pieder vienai no divām grupām (jeb ir nācis no vienas no divām populācijām) G1 un G2. Un mēs vēlamies noskaidrot optimālo lineāro kombināciju X1,...,Xp tā, lai X būtu novietots vienā no 2 grupām attaisnojamā veidā.

3. Logit analīze (logit analysis)

Tā ir piemērota, kad vienīgais kritērija mainīgais (single criterion variable) ir nošķirts un visi paredzamie mainīgie ir kategoriski.

4. Daudzdimensiju pretrunu jeb dispersijas analīze un kovariances analīze (multivariate dispersion analysis/multivariate analysis of variance (MANOVA) and Covariance (MANCOV))

Daudzdimensiju pretrunu analīze ir piemērota tehnika tad, kad vairāki reaģējošie mainīgie ir pieejami un mūs interesē pētīt dažāda līmeņa veidu mainīgo (design variables) (paskaidrojošo mainīgo) ietekmi uz kritēriju mērījumiem. Kad viens no eksperimentālajiem mainīgajiem ir vienlaicīgi notiekošs mainīgais (concomitant variable), kas tiek mērīts pēc proporcijas skalas (ratio scale), tad tehnika tiek saukta par daudzdimensiju koverācijas analīzi.

5. Kanoniskā korelācijas analīze (canonical correliation analysis)

Šinī gadījumā mēģina noteikt lineāro saistību starp paredzamo mainīgo kopumu un kritēriju mērījumu kopumu. Tiek mēģināts atrast divas lineāras funkcijas, kur viena ir no pakļauto mainīgo kopuma un otra ir no paredzamo mainīgo kopuma, tā lai produktu-momenta (product-moment) korelācija ar šīm divām funkcijām būtu maksimāla. Līdzīgi mēs varam atrast citus lineāro funkciju pārus, kas ir taisnleņķa iepriekšējām funkcijām, tā lai to produktu-momenta korelācija būtu maksimāla.

Savstarpējās atkarības metodes (interdependence analysis)

Ja vismaz viens no mainīgajiem ir mērīts ar proporcijas skalas palīdzību, tad sekojošas daudzdimensiju analīzes tehnikas var tikt piemērotas:

6. Galveno komponentu analīze (principal component analysis)

Šī ir datu reducēšanas tehnika, kurā galvenais mērķis ir atrast mainīgo lineāro kombināciju, kas uzskaita, cik vien iespējams daudz, kopējās neatbilstības. Tā ir pirmā galvenā komponente. Otrā galvenā komponente ir lineārā mainīgo kombinācija, kas ir taisnleņķa attiecībā pret pirmo un kam ir maksimālā neatbilstība starp visām šāda veida kombinācijām. Šinī gadījumā ir nepieciešams apstāties pēc dažiem soļiem, kad vairākums (80 — 85% vai vairāk) no kopējām neatbilstībām ir uzskaitītas.

7. Kopējā faktoru analīze (common factor analysis)

Tā arī ir datu reducēšanas tehnika, kas cenšas noteikt iespējami daudz kopējos faktorus, t.i., kopējās neatbilstības. Tomēr atšķirībā no galveno komponentu metodes, šie faktori ir iepriekš nenovēroti nejauši mainīgie.

8. Klastera analīze (cluster analysis)

Tā ir datu reducēšanas tehnika, kas cenšas noteikt neliela apjoma grupas tā, lai elementi, kas ir novietoti vienā un tajā pašā grupā būtu vairāk līdzīgi viens otram nekā tiem elementiem, kas ir piederoši citai grupai.

9. Metriskā daudzdimensiju skalēšana (metric multidimensional scaling)

Šī tehnika risina sekojošu problēmu — ja mēs novēroto līdzību (vai distanču) kopumam starp katru N(N-1)/2 N objektu pāri vēlamies uzzīmēt šo objektu karti reducētā telpā tā, lai objekta pozīcija kartē atspoguļotu, cik tuvu vien iespējams, tā novērotās līdzības vai atšķirības ar citiem objektiem.

Ja mainīgajiem ir tikai nomināla vai kārtas līmeņa iespējas, tad sekojošas tehnikas ir piemērotas:

10. Loglineārais modelis (loglinear model)

Šī tehnika pēta savstarpējās saistības starp kategoriskajiem mainīgajiem (categorical variables), kas veido nosacītu tabulu. Šūnas-varbūtības (cell-probabilities) ir izteiktas galveno efektu attiecības un kategorisko mainīgo savstarpējā mijiedarbībā.

11. Ne-metriskā daudzdimensiju skalēšana (nonmetrical multidimensional scaling)

Arī šī tehnika atļauj pētniekam pārveidot distanču veidā saprastās līdzības vai atšķirības starp objektu kopumu un novietot šos objektus daudzdimensiju telpā. Tomēr šeit salīdzinoši ar iepriekšējo metodi ir viena atšķirība. Šeit ir iespējams sakārtot N objektus zemas-dimensijas (low-dimension) koordinātu sistēmā, izmantojot tikai rangu kārtības N(N-1)/2 oriģinālās līdzības (distances) un nevis to svarīgumu. Kad šī kārtas informācija ir izmantota tikai priekš tā, lai attēlotu objektus reducētā telpā ar tādu pašu mērķi kā 9. punkta metodē, tad šī tehnika tiek saukta par ne-metrisko daudzdimensiju skalēšanu.^[5]

Citi metožu veidi

Tomēr šīs nav vienīgās iespējamās daudzdimensiju analīžu metodes. Ir autori, kas uzskaita vēl citas metodes. Piemēram, Alvina K. Renčera grāmatā „Methods of multivariate analysis” tiek izdalīta papildus klasifikācijas analīze (classification analysis). Tā ir novērojumu iedalīšana grupās, kas ir diskriminantu analīzes iepriekš nosakošais aspekts, taču tā tiek dēvēta par klasifikācijas analīzi, lai to skaidri nodalītu no aprakstošā aspekta. Uz šo klasifikācijas analīzes metodi bieži vien atsaucas kā uz diskriminantu analīzi, savukārt inženierzinātnē un datorzinātnē šo metodi dēvē par zīmējuma atpazīšanu (pattern recognition). Ir vēl arī citi autori, kas izmanto klasifikācijas analīzes metodes terminu, lai aprakstītu klastera analīzi, kurās novērojumi tiek sakopoti drīzāk pēc mainīgo vērtībām, nevis iepriekšdefinētām grupām.^[6]

Deivids Dž. Bartolomjū savā grāmatā „The analysis and interpretation of multivariate data for social sciences” uzsver, ka papildus ir nepieciešams izdalīt arī:

atbilstību analīzi (correspondence analysis) un
latenta klases analīzi priekš binārajiem datiem (latent class analysis for binary data).

Atbilstību analīze (jeb CORA saīsinājumā no angļu valodas) ir izpētes tehnika, lai analizētu daudz-veidu (multi-way) frekvenču tabulas, kas ir divu vai vairāk kategorisko mainīgo krustiskā-klasifikācija (cross-classification). Atbilstību analīze cenšas konvertēt skaitļu tabulu neliela skaita dimensiju (parasti divu) punktu laukā. Latenta klases analīzi priekš binārajiem datiem izmanto situācijās, kas ir minētas saistībā ar klastera analīzi. Tomēr šinī metodē ir vairāk skaidrs, cik daudz grupas ir iespējamas un ko tieši tās var attēlot. Šo metodi izmanto izglītības novērtējumam, diagnosticēšanai medicīnā, kā arī atlases nepieciešamībai, piemēram, izvērtējot iespējamo darbinieku kandidatūras.^[7]

Braijens F.Dž. Menliss savā grāmatā „Multivariate statistical methods” piemin arī galveno koordinātu analīzi (principal coordinate analysis). Šī metode ir līdzīga metriskajai daudzdimensiju skalēšanai, jo abas metodes sāk ar līdzību vai distanču matricu starp noteikta skaita objektiem un tiecas atrast klasifikācijas asis. Tomēr atšķirība starp tām ir izmantotajā skaitliskajā pieejā. Galveno koordinātu analīzes metodē tiek izmantota īpašvērtību (eigenvalue) pieeja, kas var tikt uzskatīta, savā ziņā, par galvenās komponentu analīzes vispārināšanu. Savukārt daudzdimensiju skalēšana, kā definē grāmatas, mēģina tieši pretējo, tas ir, minimizēt uzsvaru, kur tas ir tādas pakāpes mērījums, kurā objektu pozīcija t-dimensijas konfigurācijā nesaskan ar oriģinālo distanci vai līdzībām pēc piemērotās skalēšanas.^[8]

Atsauces

↑ Madalla, G.S., 2001. Introduction to Econometrics, New York: Wiley.
↑ Davies, A. and K. Lahiri, 1995. "A new framework for testing rationality and measuring aggregate shocks using panel data." Journal of Econometrics, 68(1), 205-227.
↑ Johnson R.A., Wichern D.W. Applied Multivariate Statistical Analysis, 6th ed. USA: Pearson Education, Inc., 2007. 773 lpp.
↑ Ron A. Cooper, Weekes T. J. Data, Models
↑ ^5,0 ^5,1 Mukhopadhyay P. Multivariate Statistical Analysis. Singapore: Worlds Scientific Publishing Co., Pte. Ltd, 2009. 549 lpp.
↑ Rencher A. C. Methods of Multivariate Analysis, 2nd ed. Canada: John Wiley & Sons, Inc., 2002. 627 lpp.
↑ Bartholomew D.J., Steele F. The Analysis and Interpretation of Multivariate Data for Social Scientists. USA: Chapman & Hall/CRC, 2002. 263 lpp.
↑ Manly B. F. Multivariate Statistical Methods, 3rd ed. USA: Chapman & Hall/CRC, 2005. 214 lpp.

Ārējās saites

[1] Madalla, G.S., 2001. Introduction to Econometrics, New York: Wiley.

[2] Davies, A. and K. Lahiri, 1995. "A new framework for testing rationality and measuring aggregate shocks using panel data." Journal of Econometrics, 68(1), 205-227.

[3] Johnson R.A., Wichern D.W. Applied Multivariate Statistical Analysis, 6th ed. USA: Pearson Education, Inc., 2007. 773 lpp.

[4] Ron A. Cooper, Weekes T. J. Data, Models

[autogenerated1-5] 5,0 ^5,1 Mukhopadhyay P. Multivariate Statistical Analysis. Singapore: Worlds Scientific Publishing Co., Pte. Ltd, 2009. 549 lpp.

[6] Rencher A. C. Methods of Multivariate Analysis, 2nd ed. Canada: John Wiley & Sons, Inc., 2002. 627 lpp.

[7] Bartholomew D.J., Steele F. The Analysis and Interpretation of Multivariate Data for Social Scientists. USA: Chapman & Hall/CRC, 2002. 263 lpp.

[8] Manly B. F. Multivariate Statistical Methods, 3rd ed. USA: Chapman & Hall/CRC, 2005. 214 lpp.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]