Daudzdimensiju analīze
Daudzdimensiju analīze ir datu analīzes process statistikā un ekonometrijā, kas sagrupē datus divās vai vairāk kategorijās: datu dimensijās un novērojumos. Piemēram, datu krājums par Latvijas iedzīvotāju skaitu reģionos konkrētā gadā ir uzskatāms par vienas dimensijas datiem. Savukārt Latvijas reģionu iedzīvotāju skaita izmaiņas pa gadiem ir divdimensiju datu krājums. Viens no daudzdimensiju analīzes piemēriem ir klasteru analīze.
Daudzās zinātnes jomās divdimensiju datu krājumus dēvē arī par paneļdatiem.[1] Praksē par daudzdimensiju datiem bieži uzskata tikai tādus, kuros ir trīs vai vairāk dimensiju,[2] kaut gan teorētiski pietiek ar divām vai vairāk dimensijām.
Daudzdimensiju statistiskā analīze
labot šo sadaļuDaudzdimensiju statistiskā analīze (multivariate statistical analysis) aplūko statistiskās metodes, kas apraksta un analizē visdažādākā veida datus. Pamatā šīs metodes ir balstītas uz varbūtības modeli, kas pazīstams kā daudzdimensiju normālais sadalījums (multivariate normal distribution).[3]
Daudzdimensiju statistiskā analīzes būtība un mērķi
labot šo sadaļuDaudzi statistiskie pētījumi konfrontē analītiķi ar dažādu mainīgo lielumu datiem katram no indivīdiem. Dažreiz vērtību kopums vienam mainīgajam var gadīties, ka ir tuvu saistīts ar kādu citu vai citiem mainīgo vērtību kopumiem, kādreiz tāda saistība var vispār nemaz nebūt. Tāda veida variāciju saistību pētījumi (vai tieši šo saistību trūkums) ir viens no daudzdimensiju analīzes aspektiem. Otrs aspekts ir saistīts vairāk ar attiecībām starp indivīdiem nevis mainīgajiem. Var tikt uzdots jautājumi:
Tādējādi daudzdimensiju analīzes metodes var vispusīgi iedalīt divās grupās — vienas ar fokusu uz indivīdiem (vai indivīdu grupām) un otras ar fokusu uz mainīgajiem lielumiem. Piemēram, galveno komponentu analīze pēta, kuri mainīgie ir cieši saistīti (korelē) un kuri nav. No otras puses, piemēram, diskriminantu analīze pēta, cik tālu indivīdu grupas datu matricē atšķiras viena no otras tieši mainīgo lielumu vērtību kontekstā. Daudzdimensiju analīze sastāv no metožu krājuma, kas var tikt izmantotas, kad vairāki mērījumi tiek veikti uz katru objektu vai indivīdu ar vienu vai vairākām pārbaudēm. Praksē daudzdimensiju datu kopumi ir bieži sastopami, kaut arī tie varbūt netiek tieši kā tādi analizēti. Bet kādreiz ekskluzīvā viendimensiju procedūru izmantošana mūsdienās vairs nav attaisnojama, ņemot vērā plašo un lēto skaitļošanas tehnikas iespējas, lai apstrādātu dažādo datu apjomus. Tas tad arī var būt minēts par iemeslu, kādēļ daudzdimensiju analīze ir tik populāra un bieži izmantota mūsdienās, jo plaši ir pieejamas dažādas datora programmu paketes, lai veiktu nepieciešamās kalkulācijas. Ka daži piemēri no datoru programmu paketēm var tikt minēti — SPSS (Statistical Package for Social Sciences), GENSTAT, SAS, BMDP.[4]
Daudzdimensiju statistiskās analīzes metožu veidi
labot šo sadaļuParimals Muhopadhjajs savā grāmatā „Multivariate Statistical Analysis” visas daudzdimensiju analīzes metodes ir iedalījis divos veidos:
1. Pakļautības metodes (dependence methods) tiek pielietotas gadījumā, ja interesē saistību meklēšana starp reaģējošo mainīgo (response variables) vai pakļauto mainīgo (dependent variables) kopumu vai kritēriju mērījumiem (criteria measures) un izskaidrojošo mainīgo (explanatory variables) vai paredzamo mainīgo (predictor variables) kopumu. Pakļautības metodes cenšas paredzēt reaģējošo mainīgo vai kritēriju mērījumu vērtības balstoties uz paskaidrojošiem mainīgajiem.
2. Savstarpējās atkarības metodes (interdependence methods) izmanto gadījumos, kad interesē savstarpējās saistības starp mainīgo kopumu, kuri ir bez jebkādas mainīgo klasifikācijas. Savstarpējās atkarības metodes to būtībā ir mazāk izskaidrojošas, jo parādību vai struktūru pamatdatus paskaidrošanā tās bieži vien izmanto datu reducēšanas apstrādi.[5]
Pakļautības metodes (dependence methods)
labot šo sadaļu1. Daudzkārtējā regresija (multiple/multivariate regression)
Daudzdimensiju regresija ir piemērota, kad mēs esam ieinteresēti pētīt reaģējošo mainīgo kopumu atkarību no paredzamo mainīgo kopuma, lai novērtētu vai paredzētu vidējās vērtības pakļautajiem mainīgajiem, balstoties uz paredzamo mainīgo zināmajām vērtībām.
2. Diskriminantu analīze (discriminant analysis)
Šī ir diskriminācijas problēma starp 2 un vairāk grupām. Pieņemot, ka mums ir novēroto mērījumu vektors p, kas ir apzīmēts kā X=(X1,...,Xp)’, un kas, kā ir zināms, pieder vienai no divām grupām (jeb ir nācis no vienas no divām populācijām) G1 un G2. Un mēs vēlamies noskaidrot optimālo lineāro kombināciju X1,...,Xp tā, lai X būtu novietots vienā no 2 grupām attaisnojamā veidā.
3. Logit analīze (logit analysis)
Tā ir piemērota, kad vienīgais kritērija mainīgais (single criterion variable) ir nošķirts un visi paredzamie mainīgie ir kategoriski.
4. Daudzdimensiju pretrunu jeb dispersijas analīze un kovariances analīze (multivariate dispersion analysis/multivariate analysis of variance (MANOVA) and Covariance (MANCOV))
Daudzdimensiju pretrunu analīze ir piemērota tehnika tad, kad vairāki reaģējošie mainīgie ir pieejami un mūs interesē pētīt dažāda līmeņa veidu mainīgo (design variables) (paskaidrojošo mainīgo) ietekmi uz kritēriju mērījumiem. Kad viens no eksperimentālajiem mainīgajiem ir vienlaicīgi notiekošs mainīgais (concomitant variable), kas tiek mērīts pēc proporcijas skalas (ratio scale), tad tehnika tiek saukta par daudzdimensiju koverācijas analīzi.
5. Kanoniskā korelācijas analīze (canonical correliation analysis)
Šinī gadījumā mēģina noteikt lineāro saistību starp paredzamo mainīgo kopumu un kritēriju mērījumu kopumu. Tiek mēģināts atrast divas lineāras funkcijas, kur viena ir no pakļauto mainīgo kopuma un otra ir no paredzamo mainīgo kopuma, tā lai produktu-momenta (product-moment) korelācija ar šīm divām funkcijām būtu maksimāla. Līdzīgi mēs varam atrast citus lineāro funkciju pārus, kas ir taisnleņķa iepriekšējām funkcijām, tā lai to produktu-momenta korelācija būtu maksimāla.
Savstarpējās atkarības metodes (interdependence analysis)
labot šo sadaļuJa vismaz viens no mainīgajiem ir mērīts ar proporcijas skalas palīdzību, tad sekojošas daudzdimensiju analīzes tehnikas var tikt piemērotas:
6. Galveno komponentu analīze (principal component analysis)
Šī ir datu reducēšanas tehnika, kurā galvenais mērķis ir atrast mainīgo lineāro kombināciju, kas uzskaita, cik vien iespējams daudz, kopējās neatbilstības. Tā ir pirmā galvenā komponente. Otrā galvenā komponente ir lineārā mainīgo kombinācija, kas ir taisnleņķa attiecībā pret pirmo un kam ir maksimālā neatbilstība starp visām šāda veida kombinācijām. Šinī gadījumā ir nepieciešams apstāties pēc dažiem soļiem, kad vairākums (80 — 85% vai vairāk) no kopējām neatbilstībām ir uzskaitītas.
7. Kopējā faktoru analīze (common factor analysis)
Tā arī ir datu reducēšanas tehnika, kas cenšas noteikt iespējami daudz kopējos faktorus, t.i., kopējās neatbilstības. Tomēr atšķirībā no galveno komponentu metodes, šie faktori ir iepriekš nenovēroti nejauši mainīgie.
8. Klastera analīze (cluster analysis)
Tā ir datu reducēšanas tehnika, kas cenšas noteikt neliela apjoma grupas tā, lai elementi, kas ir novietoti vienā un tajā pašā grupā būtu vairāk līdzīgi viens otram nekā tiem elementiem, kas ir piederoši citai grupai.
9. Metriskā daudzdimensiju skalēšana (metric multidimensional scaling)
Šī tehnika risina sekojošu problēmu — ja mēs novēroto līdzību (vai distanču) kopumam starp katru N(N-1)/2 N objektu pāri vēlamies uzzīmēt šo objektu karti reducētā telpā tā, lai objekta pozīcija kartē atspoguļotu, cik tuvu vien iespējams, tā novērotās līdzības vai atšķirības ar citiem objektiem.
Ja mainīgajiem ir tikai nomināla vai kārtas līmeņa iespējas, tad sekojošas tehnikas ir piemērotas:
10. Loglineārais modelis (loglinear model)
Šī tehnika pēta savstarpējās saistības starp kategoriskajiem mainīgajiem (categorical variables), kas veido nosacītu tabulu. Šūnas-varbūtības (cell-probabilities) ir izteiktas galveno efektu attiecības un kategorisko mainīgo savstarpējā mijiedarbībā.
11. Ne-metriskā daudzdimensiju skalēšana (nonmetrical multidimensional scaling)
Arī šī tehnika atļauj pētniekam pārveidot distanču veidā saprastās līdzības vai atšķirības starp objektu kopumu un novietot šos objektus daudzdimensiju telpā. Tomēr šeit salīdzinoši ar iepriekšējo metodi ir viena atšķirība. Šeit ir iespējams sakārtot N objektus zemas-dimensijas (low-dimension) koordinātu sistēmā, izmantojot tikai rangu kārtības N(N-1)/2 oriģinālās līdzības (distances) un nevis to svarīgumu. Kad šī kārtas informācija ir izmantota tikai priekš tā, lai attēlotu objektus reducētā telpā ar tādu pašu mērķi kā 9. punkta metodē, tad šī tehnika tiek saukta par ne-metrisko daudzdimensiju skalēšanu.[5]
Citi metožu veidi
labot šo sadaļu- atbilstību analīzi (correspondence analysis) un
- latenta klases analīzi priekš binārajiem datiem (latent class analysis for binary data).
Atsauces
labot šo sadaļu- ↑ Madalla, G.S., 2001. Introduction to Econometrics, New York: Wiley.
- ↑ Davies, A. and K. Lahiri, 1995. "A new framework for testing rationality and measuring aggregate shocks using panel data." Journal of Econometrics, 68(1), 205-227.
- ↑ Johnson R.A., Wichern D.W. Applied Multivariate Statistical Analysis, 6th ed. USA: Pearson Education, Inc., 2007. 773 lpp.
- ↑ Ron A. Cooper, Weekes T. J. Data, Models
- ↑ 5,0 5,1 Mukhopadhyay P. Multivariate Statistical Analysis. Singapore: Worlds Scientific Publishing Co., Pte. Ltd, 2009. 549 lpp.
- ↑ Rencher A. C. Methods of Multivariate Analysis, 2nd ed. Canada: John Wiley & Sons, Inc., 2002. 627 lpp.
- ↑ Bartholomew D.J., Steele F. The Analysis and Interpretation of Multivariate Data for Social Scientists. USA: Chapman & Hall/CRC, 2002. 263 lpp.
- ↑ Manly B. F. Multivariate Statistical Methods, 3rd ed. USA: Chapman & Hall/CRC, 2005. 214 lpp.