La plataforma para clasificar tweets de ayuda a respuesta humanitaria de QCRI será híbrida, abierta y gratuita.

El terremoto de Haití 2010 fue el primero documentado con un mapa de crisis map

El instituto de Investigación Informática de Qatar, QCRI, creará una app para procesar mensajes de Twitter con el objetivo de mejorar la respuesta a desastres mediante un uso más eficiente y racional de los equipos de ayuda humanitaria. La plataforma combinará la computación avanzada y la humana, dado que el  procesamiento de datos es cada vez más difícil por la gran cantidad de mensajes que se comparten en la red.

El panel de control permitirá a los usuarios crear sus propios clasificadores sobre la marcha mediante el aprovechamiento de la computación humana y será capaz de aprovechar las ventajas del microtasking para la creación de nuevos clasificadores.

Si queremos clasificar información sobre el Huracán Sandy primero escribiremos una consulta de búsqueda en el panel de control, por ejemplo, #Sandy. Después haremos clic en “Crear clasificador” para #Sandy, explica @PatricMeier en su blog iRevolution.

A continuación crearemos una etiqueta para el nuevo clasificador, por ejemplo, “Rescate de Animales”. Lo siguiente será etiquetar más de 50 tweets con contenidos sobre rescate de animales.  Por último habrá que hacer clic en  “Ejecutar Clasificador Rescate de Animales” en los nuevos tweets entrantes.

El nuevo clasificador etiquetará automáticamente los tweets entrantes aunque los resultados no serán totalmente correctos Sin embargo, el usuario puede “enseñar” al clasificador a no cometer los mismos errores, lo que significa que el clasificador continúa aprendiendo y mejorando con el tiempo.

Geolocalización

Sólo el 3% de los tweets están gereferenciados por los usuarios, esta cifra se puede incrementar en un 30%  con el uso de texto completo geo-codificación (como  hizo el  proyecgo TwitterBeat ). Algunos creen que esta cifra puede duplicarse (hacia el 75%), señala Meier, mediante la aplicación del traductor de  Google para el texto completo de geo-codificación.

También es posible preguntar al resto de los usuarios de Twitter cuál es su ubicación y la de los eventos que están reportando.

Computación automática versus computación humana

“La computación avanzada implica el uso de algoritmos de aprendizaje automático para etiquetar automáticamente mensajes de Twitter mientras que la computación humana  implica el uso de microtasking, como el uso de un Crowdsourcing inteligente. Nuestro Dashboard de Twitter busca combinar lo mejor de ambas metodologías”, señala Meier.

Mapa de crisis de Japón

El  equipo de Computación Avanzada ha desarrollado una serie de clasificadores que identifican automáticamente los tweets que contienen información relevante (en lugar de mensajes personales o contenidos poco útiles para la respuesta a desastres), así como aquellos que están escritos por testigos presenciales.

También ha seleccionado los tweets que incluyen fotos, videos, menciones de televisión y radio; los que informan de víctimas y los daños de la infraestructura;  lo que tienen relación con personas desaparecidas; los que ofrecen consejos y asesoramiento , y  los que piden u ofrecen ayuda  o hablan de necesidades importantes.

“Esto significa que cogemos un conjunto de datos de un desastre de Twitter, por ejemplo del Huracán Sandy, y desarrollamos una definición clara de “contenido informativo”, “relatos de testigos oculares”, etc “.

El equipo de Meier utiliza este sistema de clasificación para etiquetar una muestra aleatoria de tweets (por lo general de más de 100) de la base de datos.

“A continuación, “enseñamos “a estos  algoritmos a encontrar estos temas diferentes en el resto del conjunto de datos. Modificamos dichos algoritmos para que sean lo más exactos posibles, al igual que entrenamos  a un perro para  que aprenda nuevos trucos”, señala Meier.

Los clasificadores son bastante precisos y sensibles al tipo de desastres que se analiza y también al país en el que dicho desastre ocurre.

” Por ejemplo, un conjunto de clasificadores desarrollados a partir de tweets publicados durante el huracán Sandy  tiende a ser menos preciso cuando se aplica a los tweets publicados por el terremoto de Nueva Zelanda”.

Cada clasificador se desarrolla sobre la base de tweets publicados durante un desastre específico.

“En otras palabras, mientras que los clasificadores pueden ser muy exactos (es decir, mensajes de Twitter correctamente etiquetados, por ejemplo, relacionados con daño) esta clasificación sólo tiende a ser exacta para el tipo de catástrofes seleccionado, por ejemplo, los relacionados con desastres climatólogicos (tornados), relacionados con la tierra (terremotos) y  con el agua (inundaciones)”.

Clasificador de tweets Greasemonkey

Este procedimiento es extremadamente lento e ineficaz por sí mismo para desarrollar el objetivo de crear una plataforma de clasificación automática de tweets. Por ello, el equipo de QCRI está desarrollando un  enfoque híbrido, con clasificadores pre-desarrollados que puedan acceder al mayor números posible de bases de datos.

El clasificador del equipo de Meier será de código abierto y libre acceso una vez terminado y se espera que se pueda utilizar no sólo en inglés sino también en árabe,  español y francés. De momento está en experimentación y, según Meier, “queda mucho por hacer”.

VN:F [1.9.22_1171]
Rating: 0.0/5 (0 votes cast)
VN:F [1.9.22_1171]
Rating: 0 (from 0 votes)

Deja un comentario