viernes, 18 de diciembre de 2015

Minería de texto y planificación estratégica

mineria de texto

Planificación estratégica y minería de texto

Caso. Análisis de algunos artículos del portal aporrea.org sobre los resultados del 6-D

El análisis estratégico es la base para la decisión estratégica. Consiste en el estudio de datos (cualitativos, cuantitativos) asociados a los factores internos o externos que hemos detectado, previamente, como factores relevantes para nuestra organización, porque pueden afectarla, positiva o negativamente, en forma directa o indirecta.
Los datos de tipo cuantitativo se relacionan con las finanzas y la contabilidad a nivel interno, y con indicadores de tipo económico, financiero, socio-culturales, entre otros, a nivel externo. Tales indicadores provienen del desempeño de la nación, pero también del desempeño de nuestros competidores así como del desempeño de nuestros socios. Este tipo de información generalmente es estructurada. La obtenemos en formato de tablas, hojas de cálculos y bases de datos. Aun cuando es necesario efectuar algunas 'limpiezas' y procesamientos sobre esta data, en general no nos genera mayores problemas para pasar de la obtención de la data al análisis y su posterior publicación.
Los datos de tipo cualitativo son otra historia. Se trata de, por ejemplo, respuestas a preguntas abiertas formuladas en encuestas; opiniones de los usuarios de nuestros servicios o de los consumidores de nuestros productos, sobre la calidad, la efectividad y eficiencia de éstos, o sus consideraciones sobre el desempeño de la organización; leyes, investigaciones académicas, etc. A partir de esta modalidad de datos podemos analizar y predecir tendencias relacionadas con imaginarios, creencias, valores y matrices de opinión. Sin embargo, el problema central con la información cualitativa es que no es estructurada. Se presenta como texto.
Tradicionalmente la información textual suele categorizarse en forma manual, lo cual reduce la complejidad del texto a unos cuantos indicadores que describen la temática/contenido del texto. Este procedimiento es útil cuando tenemos solo unos megas de información textual. Por ejemplo, analizar las cartas de Simón Bolívar, o las constituciones decretadas durante la vida republicana de Venezuela. Sin embargo, cuando tenemos el equivalente a gigas y terabytes de información, el procesamiento manual se convierte en un reto ¿Cómo podríamos procesar manualmente los millones de opiniones sobre los libros adquiridos por los usuarios de Amazon? ¿como procesar las 4.73 millardos de páginas que, a la fecha, posee la web?
Para lidiar con este tipo de retos se ha desarrollado la minería de texto (text mining), a la que también se le denomina analítica (text analytics) de texto. Se trata de una serie de procedimientos en el que se combinan la informática, la estadística y la inteligencia artificial con el objeto de extraer conocimiento de grandes volúmenes de documentos de data no estructurada. Es decir, información textual. Se considera que el 75% de toda la data disponible es textual, vg. no estructurada. El conocimiento que se obtiene no está presente en ninguno de los documentos individuales, sino que emerge del conjunto de ellos.
La minería de texto, dependiendo de la disciplina que la emplee y si los procedimientos se relacionan más con la informática, o la estadística o la inteligencia artificial, implica un conjunto de pasos diversos. No obstante, el núcleo del procedimiento consiste en: Recuperación de información: seleccionar los textos pertinentes. Extracción de la información incluida en esos textos: hechos, acontecimientos, datos clave, relaciones entre ellos, etc. Aplicación de minería de datos para encontrar asociaciones entre esos datos claves previamente extraidos de entre los textos.
El procedimiento no se debe emplear en forma aleatoria, a menos que el objetivo consista en una exploración general de bases de datos textuales para encontrar patrones útiles. No obstante, la recomendación general insiste en que se debe partir de un objetivo de la investigación, un marco teórico, mínimo, y una hipótesis básica. Todo ello para evitar el riesgo de perderse por completo durante el proceso. Se debe, además, Pre-procesar la data, Determinar, de acuerdo con los objetivos de la investigación, el modelo que se aplicará y finalmente interpretar el resultado.

Bag of Words

Es uno de los modelos más extendidos para el procesamiento y análisis de información textual. Descompone el texto original en un conjunto de caracteres (palabras, puntuaciones, espacios en blanco), que luego transforma en una matriz compuesta de documentos, términos, y la distribución de frecuencia de los términos en cada documento. En el contexto del Bag of Words, BoW, se entiende como documento un conjunto de caracteres delimitados por un punto y aparte. Por tanto, puede tratarse de un caracter, una línea, un párrafo o un texto completo.
El BoW no está exento de críticas. Dado que los documentos son 'deconstruidos' y reducido a términos + frecuencia de aparición en el texto, cada término/palabra pierde la relación original con el contexto en el que se la usa. Es decir, en el BoW el orden de las palabras es irrelevante. Así el siguiente texto:
"Me fui solo al banco a cobrar un cheque. Había demasiada gente de pie porque habia un solo banco disponible"
 

se descompone de la siguiente forma 

terms={me, fui, solo, al, banco, a, cobrar, un, cheque, había, 
demasiada, gente, de, pie, porque, disponible}

docs={1, 1, 2, 1, 2, 1, 1, 2, 1, 2, 1, 1, 1, 1, 1, 1}
Se pierde, por ejemplo, el sentido de homonimia en la palabra banco: institución financiera/mueble. Desde la inteligencia artificial se realizan numerosas investigaciones para superar este problema y otros similares. No obstante, el BoW ha probado ser útil a lo largo de los años. Se le ha empleado con bastante éxito como procedimiento-base para filtrar correos indeseados, recuperar información en la web, clasificar documentos, clasificar imágenes, reconocer rostros, detectar plagio, identificar a autores anónimos de correspondencias/textos, entre otros.

Minería de texto y análisis estratégico

la minería de texto puede sernos de gran utilidad en salas de análisis estratégico y/o salas situacionales. Puede permitirnos hacer seguimiento a opiniones, tópicos especiales o cadentes que involucran a nuestra organización, identificar el cambio de tendencia en los imaginarios, valores y creencias en nuestro entorno, los sentimientos predominantes en las discusiones sobre ciertos aspectos, etc.
Aprovechando la coyuntura reciente en Venezuela, apliquemos la minería de texto para averiguar cuál fue la reacción de algunos articulistas de aporrea.org con respecto a los resultados de las elecciones parlamentarias del 6-D.

Ejemplo Tendencias en la opinión de algunos articulistas de aporrea.org a propósito de los resultados del 6-D

Objetivo Conocer el tipo de explicación ofrecida a, o la preocupación generada por, los resultados de las elecciones parlamentarias del 6 de diciembre de 2015, tomando en consideración los tópicos más frecuentes por artículos y por minutos
Muestra 96 artículos Publicados entre la 1 am. del 7/12 y la 1 am. del 08/12 Publicaron: 4 mujeres, 92 hombres
Extracción de la información: Se creó una tabla con los datos del articulista, el título del articulo, la hora y el contenido de cada artículo Aplicación de minería de datos modelo bag of words.
A partir de éste: nubes de palabras, para analizar los contenidos de los artículos en forma visual y escalamiento multidimensional, para clasificar los artículos en función de la similitud de los temas tratados.
Aplicación de minería de datos
Hemos usado R para la minería de datos
Pre-procesamiento:
Creamos una base de datos textual Eliminamos las palabras vacías (artículos, verbos copulativos); puntuaciones, espacios en blanco y llevamos todos los textos a minúscula Lematizamos los textos para quedarnos con la raíz de las palabras Creamos una matriz documental Relativizamos las frecuencias por cada mil palabras.
Nube de palabras. Clave de interpretación. Las nubes de palabras, al menos las elaboradas con R, nos facilitan la interpretación. En estas nubes, el tamaño de la fuente, el color, y la ubicación de la palabra es significativo. Al mayor tamaño y ubicación central del término, mayor frecuencia de uso. Las palabras con un mismo color se caracterizan por tener frecuencias similares. Se les puede considerar cluster temáticos
Palabras más usadas. Distribución de frecuencias absolutas


Distribución de palabras por artículo analizado
Las frecuencias absoluta de los términos nos indican que los articulistas sintieron mayor preocupación con la oposición, el gobierno, el pueblo, la guerra económica. Se observa que las discusiones parecen haber girado en el rol de esos tres elementos en los resultados. Si en lugar de observar las frecuencias absolutas, observamos las frecuencias de las palabras por cada mil de ellas, obtenemos:

Visto desde esta perspectiva logramos observar algunos patrones distintos, lo cual nos permite enriquecer el análisis
Distribucion de frecuencia de palabras por cada mil


Otra estrategia útil, dependiendo del tipo de seguimiento que estemos adelantando en nuestra sala de análisis estratégico, consiste en observar los términos más frecuentes por segundo, minutos, horas, días, semanas, etc. Este tipo de análisis nos puede señalar la importancia de un tópico dado en el tiempo. Un mismo tópico puede ser empleado con distintas frecuencias en un lapso dado, por lo que aparecerá en la nube en forma repetida y con diferentes colores o tamaño. Ese patrón de aparición puede indicarnos tópicos claves. Veamos ese caso en nuestro análisis:

Distribución de palabras por minuto
Si lematizamos las palabras, podremos tambien buscar patrones adicionales en las palabras por minutos:
Distribución de palabras luego de lematizarlas

Clasificacion de los articulos

La última estrategia que discutiremos en este post, es la clasificación de los artículos. Podríamos desear tener juntos los artículos que, por su deistribución de frecuencia de términos, resultan más parecidos entre sí. Al tener esta taxonomía, podríamos crear otras nubes de palabras para obtener otras perspectivas en el análisis. Es importante tomar en cuenta que el parecido entre los artículos se verá afectado por el número de términos que elijamos retener en el análisis. Así por ejemplo, si decidimos analizar los artículos tomando el 90% de los términos obtendremos un resultado distinto al que podríamos obtener si analizamos sólo el 5% de ellos. La Decisión de tomar el 100% del contenido del documento o solo un 5% dependerá de la extensión de cada texto y de los objetivos del análisis. También puede influir la capacidad de memoria de nuestros equipos.
Ejemplificaremos la clasificación de documentos y al mismo tiempo cómo el resultado podría variar en función de la cantidad de términos retenido con el siguiente gif. La técnica empleada es Escalamiento multidimensional. La clave de interpretación es que los documentos más parecidos entre si tenderán a aparecer cercanos unos de otros. Los documentos que aparecen hacia el centro del gráfico tratan tópicos muy parecidos, en tanto que los que se alejan del centroide contienen temas diferentes. Adicionalmente, los grupos opuestos: arriba, abajo, derecha, izquierda, tienden a presentar contenidos opuestos. Si usaramos la técnica en una sala de análisis situacional, nos interesaríamos sobre todo por estos grupos alejados del centroide y contrapuestos entre sí:
Clasificación de documentos usando escalamiento multidimensional
En este post no intepretaremos las visualizaciones...Le dejamos esa actividad a usted, amigo lector. Observe las nubes y saque sus conclusiones.



Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.