miércoles, 22 de enero de 2014

Gráficos

Matriz de gráficos de dispersión

Matriz de gráficos de dispersión

Nos permite observa de manera simultánea la relación entre cada par de variable en un conjunto de ellas, y, a la vez identificar datos atípicos en la relación bivariante de las variables.

Subimos la data y visualizamos rápidamente un resumen de esos datos:

data <- read.csv2("~/datosAnalisis/percepcion.csv", header = T)
head(data)
##   ubicacion  parroquia negro afrodes. moreno blanco   otra
## 1     norte altagracia 2.370   1.4567  41.87  51.57 2.7322
## 2    centro   antimano 2.386   0.7862  49.24  46.68 0.9134
## 3     norte candelaria 1.631   1.2409  37.08  57.95 2.0991
## 4   sureste   caricuao 1.929   0.7844  44.95  51.40 0.9368
## 5    centro   catedral 2.405   1.0766  41.13  54.41 0.9745
## 6   sureste      coche 1.509   0.3995  49.24  48.30 0.5556
summary(data)
##     ubicacion      parroquia      negro         afrodes.    
##  centro  :9   altagracia: 1   Min.   :1.06   Min.   :0.287  
##  noreste :2   antimano  : 1   1st Qu.:1.98   1st Qu.:0.785  
##  noroeste:3   candelaria: 1   Median :2.31   Median :0.980  
##  norte   :4   caricuao  : 1   Mean   :2.26   Mean   :1.000  
##  suoeste :1   catedral  : 1   3rd Qu.:2.42   3rd Qu.:1.268  
##  sureste :3   coche     : 1   Max.   :3.63   Max.   :1.732  
##               (Other)   :16                                 
##      moreno         blanco          otra      
##  Min.   :28.2   Min.   :46.4   Min.   :0.556  
##  1st Qu.:38.4   1st Qu.:47.6   1st Qu.:0.859  
##  Median :44.5   Median :51.5   Median :1.158  
##  Mean   :42.8   Mean   :52.6   Mean   :1.387  
##  3rd Qu.:47.6   3rd Qu.:57.7   3rd Qu.:1.683  
##  Max.   :49.6   Max.   :68.0   Max.   :3.538  
## 

Obtenemos la matriz


plot(data[, -c(1:2)], col = as.factor(data[, 1]), pch = 16)

plot of chunk matrizDatos

Observamos que hay una relación moderada y directa entre las variables afrodescendiente y negro. En aquellas parroquias en las que la gente tendió a percibirse como afrodescendiente también tendieron a percibirse como afrodescendiente. Hay una relación fuerte e inversa entre blanco y moreno. En aquellas parroquias en donde la gente se percibió mayoritariamente como blancos, se percibióen menor medida como morenos, y viceversa.
En los lugares en los que la gente se percibió como moreno, la gente también se identificó en forma directa y moderada, como negro, pero no como afrodescendientes

La matriz de gráficos de dispersión nos ayudan a obtener una mirada multivariada de nuestra data. De esta forma, podemos empezar a formularnos algunas preguntas, adelantar algunas respuestas e imaginar posibles modelos para nuestra data

Clusters

Análisis por conglomerados

Análisis por conglomerados

Una de las técnicas més sencilla para clasificar diferentes casos, y sin embargo poco usada en la planificación, es el análisis de cluster (también an´lisis por conglomerados). Vamos a aplicar la técnica, pero primero vamos a obtener nuestra data:

data <- read.csv2("~/datosAnalisis/poblacion.csv", header = T)
data <- data[1:22, ]
names(data) <- c("parroquia", "2001", "2011")

Hemos subido la data a la cónsola. Luego hemos verificado el contenido; finalmente, hemos cambiado el nombre de las columnas. El siguiente paso consistir´ en crear una matriz de distancia, primero con la data correspondiente al an˜ :

dataDist <- dist(as.matrix(data[, 1:2]))
## Warning: NAs introduced by coercion

Creamos ahora el gráfico que nos mostrará las parroquias según su el grado de similitud entre ellas, tomando en cuenta el porcentajes de población del Distrito Capital que habita en ellas:

dataClust <- hclust(dataDist)
plot(dataClust, labels = data$parroquia)

plot of chunk unnamed-chunk-3

En 2001, de acuerdo al porcentaje de la población que cada parroquia tenía, del porcentaje total de la población del Distrito Capital, y dependiendo de los objetivos de la clasificación podemos encontrar que las 22 parroquias pueden clasificarse en 14, de abajo hacia arriba:

  • Paraiso y Recreo
  • San Juan
  • Santa Rosalía
  • Pastora y 23 de Enero
  • Valle y Caricuao
  • La Vega y Antímano
  • Junquito y Altagracia
  • San José
  • San Agustín y Macarao
  • Coche y Candelaria
  • San Pedro
  • Santa Teresa y San Bernardino
  • Catedral
  • Sucre

Si deseamos un número menor de grupos, podemos avanzar un nivel hacia arriba del gráfico (dendograma). Encontramos entonces cuatro grupos:

  • Paraiso, Recreo, San Juan, Pastora, Santa Rosalía y 23 de Enero
  • Valle, Caricuao, La Vega y Antímano
  • Junquito, Altagracia,San José,San Agustín y Macarao
  • Coche y Candelaria, San Pedro,Santa Teresa, San Bernardino,Catedral
  • Sucre

Finalmente, podemos tres grandes grupos:

  • Paraiso, Recreo, San Juan, Pastora, Santa Rosalía y 23 de Enero, Valle, Caricuao, La Vega y Antímano
  • Junquito, Altagracia,San José,San Agustín y Macarao, Coche y Candelaria, San Pedro,Santa Teresa, San Bernardino,Catedral
  • Sucre

Los conglomerados que obtenemos dependerá del tipo de distancia que seleccionemos. Por ello es importante correr los clusters usando diferentes distancias, y tomar aquellos grupos que se mantengan, independientemente del tipo de distancia. Por otra parte, debemos normalizar la data si detectamos que algunos casos, como sucede con Sucre, podrían influenciar la conformación de los grupos

Observemos en un gráafico de barras las parroquias de acuerdo con el porcentaje de población del Distrito Capital que habita en cada una:

par(mar = c(5, 8, 4, 2))
par(las = 2)
barplot(data[, 2], names.arg = data$parroquia, las = 2, border = "white", horiz = TRUE, 
    xlim = c(0, 20))

grid(4, NA, col = "white")

plot of chunk barrasPoblacion