miércoles, 26 de marzo de 2014

SICAD 2

¿Qué se dice de SICAD II? Ejercicio de análisis del entorno

¿Qué se dice de SICAD II? Ejercicio de análisis del entorno

Recientemente el gobierno venezolano ha creado un sistema de administración de divisas adicional para agilizar la obtención de dólares y combatir al denominado Dólar paraleo. Suponga que usted trabaja en una sala de análisis estratégico, o sala situacional, y le piden monitorear la red para saber qué y quién ha dicho qué sobre el SICAD. Una buen punto de partida es Tuiter. Sin bien es cierto que hoy hay mayores problemas para obtener la autenticación que, en teoría, nos permitiría obtener tuiters en una cantidad interesante para e análisi y en forma rápida, en ocasiones como estas es posible hacer la cosecha de tuits en forma manual y tener una visión rápida de lo que s dice sobre una tema en particular. Veamos un ejemplo de cómo hacer esto.

Para ello seguiremos obtendremos la data en forma manual, la pre-procesaremos usando Notepad++ y Refine para luego realizar los análisis correspondientes, empezando con un nálisis descriptivo.

Obtención de la data.

Ubicamos en Tuiter el tópico #sicadii y copiamos todos los tuits desde el 23 hasta el 26 de febrero, a las 2 pm, hora de Venezuela. Esta información se copió y se pegó en Notepad++. Aquí iniciamos la primera fase de pre-procesamiento. Esta consistió en: *Eliminar frases típica dl tipo de información que se agrega en el tuit (foto, imagen incrustrada, etc),

  • Colocar todo el texto en minúscula
  • Eliminar los acentos diacriticos y cambiar la letra “ñ” por “ni” para evitar resultados desagradables en algunas visualizaciones
  • Eliminamos espacios adicionales

Esta data la llevamos a Refine y allí procedimos a transformarla de formato de texto formato de tabla u hoja de cálculo. Creamos un dataset con 8 variables. La data se exportó desde Refine y luego se subió a la cónsola de R. Veamos los primeros registros del dataset creado a partir de los tuits cosechados:

##          usuarioNombre       tipo    posicion        usuario enviado
## 1        veus noticias     medios        otro  @veusnoticias   9 min
## 2       noticia al dia     medios        otro  @noticiaaldia   9 min
## 3 noticiero venevision     medios   oposicion   @noticierovv  15 min
## 4          el nacional     medios   oposicion @elnacionalweb  16 min
## 5            notitarde     medios   oposicion  @webnotitarde  19 min
## 6   william castillo b periodista oficialismo       @planwac  23 min
##       fecha
## 1 26 de mar
## 2 26 de mar
## 3 26 de mar
## 4 26 de mar
## 5 26 de mar
## 6 26 de mar
##                                                                                                                           texto
## 1                            estiman que tasa de sicad ii se ubique en bs. 30 por dolar http://wp.me/p2hiyh-qd4 #sicadii #dolar
## 2              rafael ramirez: objetivo principal del sicad ii es derrotar al dolar paralelo http://goo.gl/bai9r5 @noticiaaldia
## 3                                    via @andreinasvv: #venezuela: nelson merentes: tasa de sicad ii esta entre bs 51 y 62 bsf.
## 4                                                  merentes: sicad ii esta funcionando de forma fluida http://bitly.com/1gqhmg6
## 5                   presidente del bcv dice que la tasa en sicad ii esta entre 51 y 62 bolivares http://s.notitarde.com/0x4d76f
## 6 ¿que sera de la vida del "costo de reposicion"? precios que estaban marcados con dolar a 80-90 deberian bajar a 51..sicad ii.
##                              links
## 1 wp.me/p2hiyh-qd4 #sicadii #dolar
## 2      goo.gl/bai9r5 @noticiaaldia
## 3                                 
## 4                bitly.com/1gqhmg6
## 5          s.notitarde.com/0x4d76f
## 6
## [1] "usuarioNombre" "tipo"          "posicion"      "usuario"      
## [5] "enviado"       "fecha"         "texto"         "links"

Análisis descriptivo

Hagamos un análisis descriptivo de los tuits obtenidos. Cosechamos 302 tuits. Estos han sido enviados o reenviados desde los siguientes usuarios, ordenados de mayor a menor los 15 primeros:

usuarios <- data.frame(sort(table(sicad$usuario), decreasing = TRUE))
names(usuarios) <- "frec"
head(usuarios, 15)
##                  frec
## @elnacionalweb     23
## @noticiasvenezue   21
## @eluniversal       19
## @la_patilla        17
## @unoticias         15
## @unionradionet     14
## @prodavinci        11
## @globovision       10
## @ndtitulares        9
## @yvke_mundial       8
## @albertoravell      7
## @diariotalcual      7
## @pr1merojusticia    7
## @webnotitarde       7
## @yoyopress          5

Visualicemos esta data, tomando sólo los usuarios que han enviado 3 o más mensajes:

usua <- subset(usuarios, frec > 2)
require(ggplot2)
qplot(reorder(rownames(usua), frec), frec, data = usua) + theme(axis.text.x = element_text(size = rel(1.5), 
    angle = 90))

plot of chunk unnamed-chunk-1

El Nacional, Noticias Venezuela, El Universal, La Patilla y Ultimas Noticias han ha sido los usuarios más activos en la conversación sobre SICAD 2. Entre los cincos han enviado el 31% de los mensajes, si incluimos todos los usuarios, y el 41% de ellos, si tomamos en cuenta solo aquellos usuarios que han posteados tres o más tuits.

Hemos creados dos columnas adicionales clasificando, en forma no exhaustiva, el tipo de usuario (medios, partidos politico, etc) y su psoción política. Allí en donde no identificamos de forma rápida el tipo o la posición política del usuario, colocamos “particular”, en el primer caso, y “otros”, en el segundo:

p <- data.frame(summary(sicad$tipo))
names(p) <- "frec"
q <- data.frame(summary(sicad$posicion))
names(q) <- "frec"

qplot(reorder(rownames(q), frec), frec, geom = "bar", data = q)

plot of chunk clasificacion

qplot(reorder(rownames(p), frec), frec, geom = "bar", data = p) + theme(axis.text.x = element_text(size = rel(1.5), 
    angle = 90))

plot of chunk clasificacion

La oposición ha sid más activa en la conversación sobre el SICAD II, en tanto que el tipo de usuario que ha estado más activo han sido los medios.

Combinando la información anterior con la fecha en la que cada usuario participó en la conversación obtenemos:



qplot(factor(fecha), data = sicad, fill = posicion, geom = "bar") + theme(axis.text.x = element_text(size = rel(1.5), 
    angle = 90))

plot of chunk fecha


qplot(factor(fecha), data = sicad, fill = tipo, geom = "bar") + theme(axis.text.x = element_text(size = rel(1.5), 
    angle = 90)) + scale_fill_brewer(palette = "Paired")

plot of chunk fecha


ggplot(sicad, aes(tipo)) + geom_bar() + facet_wrap(~posicion) + theme(axis.text.x = element_text(size = rel(1.5), 
    angle = 90))

plot of chunk fecha

La mayor conversación sobre el SICAD II tuvo lugar el lunes 24. Tal como se ha señalado, la conversación estuvo dominada por la oposición, si tomamos en cuenta la posicion política, y por los medios, si tomamos en cuenta, el tipo de usuario. Al cruzar tipo du usuario y posición política, observamos que en la oposición, además de los medios, otros actores politicos que han estado muy activos en la conversción, han sido partidos políticos y periodistas. En la categoria otros, la conversación es dominada por particulares y por los medios, en tanto que del lado oficialista, la participación ha sido de una encuestadora que se suele identificar con posiciones oficialista. Llama la atención la ausencia de los medios oficiales en esta conversación, al igual que la de los partidos políticos del gobierno.

En general, la participación de los diferentes usuarios, por fecha es:

qplot(reorder(usuario, fecha), fecha, data = sicad) + labs(x = "")

plot of chunk enfecha

En el próximo post, elaboraremos otras visualizaciones en la que obtendremos las relaciones entre los usuarios, quien conversó con quien, y el texto de las conversaciones. Entre tanto, veamos un par de visualizacione alternativas para el tipo de usuario y la posición política de los usuarios:

plot of chunk tablas

plot of chunk tablas2

No hay comentarios: