5% de usuarios publican casi el 50 % de todos los tweets georefenciados

twitter

Twitter tiene un perfil geográfico propio donde la mayoría de los mensajes georeferenciasdos, ya sea via GPS, por menciones, o por la ciudad que aparece en el perfil de los usuarios, son compartidos por el 5% de los usuarios. Los RT y las menciones no se pueden utilizar para georeferenciar mensajes, según el estudio Mapping the global twitter heartbeat, the geography of Twitter (Cartografía del corazón global de Twitter, la geografía de Twitter) de Kalev Leetaru y otros 4 expertos, donde también señalan que le 18,85 % de los twits georeferenciados tiene enlaces a Foursquare, Instagram, Twitter y Facebook, y que  Indonesia, Europa Occidental, África y América Central tienen una alta proporción de los usuarios de Twitter más influyentes del mundo.

El estudio  realizado por Kalev Leetaru  y sus colegas sobre las diferentes fuentes y la precisión de la información geográfica en Twitter analiza 1.500 millones de tweets (obtenidos de Twitter Decahose a través de GNIP) entre el 23 de octubre y el 30 de noviembre 2012, lo que supone un total de 14,3 mil millones de palabras publicadas el 35% de todos los usuarios activos en ese momento, señala Patrick Meier en su blog iRevolution.

Hay que tener en cuenta, señala Meier, que el 2,9% de la población del mundo son usuarios activos de Twitter y que el 87% de todos los tweets publicado desde el lanzamiento de Twitter en el 2006 se ha escrito sólo en los últimos 24 meses.

Un 5% de usuarios publican casi el 50 % de todos los tweets

En promedio, Kalev y sus colegas encontraron que el menor número de tweets publicados por hora es de un millón, mientras el mayor  son 2 millones. Además, casi el 50% de todos los tweets son publicados por un 5% de los usuarios.

primera

 En términos de geografía, señala Meier, hay dos maneras de capturar fácilmente los datos geográficos de Twitter. El primero es a través de la información de la ubicación especificada por el usuario cuando se registran en una cuenta de Twitter (seleccionado de un menú desplegable de nombres de lugares). El segundo, que se genera de forma automática, es partir de las coordenadas de la ubicación del usuario de Twitter cuando tuitea, que normalmente se proporciona a través de GPS o triangulación celular.

“En un día típico, alrededor del 2,7% de los tweets contienen información del GPS o datos celulares mientras un 2,02% de los usuarios se refieren a un lugar de la lista al registrarse (1,4% tiene ambos). La figura de arriba combina la información de las coordenadas del GPS y la capturada en los tweets durante los 39 días de estudio. Por el contrario, la figura siguiente combina todos los lugares de Twitter, añadiendo nombres de lugares registrados vía GPS y datos móviles (ambos en rojo) y los superpone  con la ubicación de las luces eléctricas (azul) sobre la base de imágenes de satelitales obtenidas de la NASA.

Las áreas blancas representan localidades donde existe un equilibrio entre el número de tweets y la electricidad. Las áreas rojas revelan una mayor densidad de  tweets que de luces nocturnas, mientras que las zonas azules tienen más luces nocturnas que tweets.

“Irán y China muestran considerablemente menos  tweets de los que sus niveles de energía eléctrica podrían sugerir”, situación que Meier atribuye a la prohibición de usar la red social en el país asiático.

La India muestra un fuerte agrupamiento de uso de Twitter a lo largo de la costa y de la frontera norte, así como el consumo de electricidad es mucho más equilibrado en todo el país. En Rusia prevalece el uso de la electricidad frente al uso de Twitter en su mitad oriental,” mientras que la mayoría de los países muestran mucho más uso de Twitter de lo que su consumo de electricidad podría sugerir “.

 “La correlación de Pearson entre los tweets y las luces es de 0,79, lo que indica muy alta similitud. Es decir, en cualquier parte del mundo existe la electricidad, por lo que las posibilidades de que también haya usuarios de Twitter es muy alta.”

De este modo, señala Meier,  los tweets se distribuyen uniformemente por toda la geografía de acuerdo a la disponibilidad de la electricidad. Por lo tanto, aunque “menos del tres por ciento de todos los tweets  tengan información de geolocalización, esto sugiere que podrían ser utilizados como una base de referencia dinámica para evaluar la precisión de otros métodos de recuperación geográfica.”

Hay que tener en cuenta, indica Meier, que “la bombilla se inventó hace 134  años, en contraste con los 7 años de corta historia de Twitter. Y, sin embargo, la correlación es ya muy fuerte. Por eso lo llaman una revolución de la información. Sin embargo, sólo el 1% de todos los usuarios de Twitter representó el 66% de todos los tweets georeferenciados durante el período de estudio, lo que significa que confiar exclusivamente en estos tuits puede proporcionar una visión sesgada del universo de Twitter, particularmente durante períodos cortos de tiempo. Pero si esto plantea un problema depende en última instancia de lo que queramos saber.”

 table 1

La geografía lingüística de Twitter, fundamental

La geografía lingüística de Twitter es fundamental: “Si el Inglés se utiliza muy poco fuera de los Estados Unidos, o si los tweets en inglés tienen un perfil geográfico fundamentalmente diferente de otros idiomas fuera de los Estados Unidos, esto supone un sesgo significativo de los resultados de geocodificación .”

Los tweets georeferenciados con contenido Inglés constituyen el41,57% de todos los tweets geo-etiquetados, como muestra la tabla a continuación.

                            table 2

Los datos de la tabla anterior se muestran geográficamente desplegados para la región europea. El mapa mundial se puede ver aquí. “En los casos en varios idiomas  presentes en la misma coordenada, el punto se le asigna a la lengua predominante en ese momento y el color también.” Los análisis estadísticos de los tweets en inglés geo-etiquetados en comparación con todos los demás idiomas sugieren que “el inglés ofrece un espacio de proximidad para todos los idiomas y que un algoritmo de codificación geográfica que procesa sólo Inglés seguirá teniendo una fuerte penetración en las zonas dominadas por los otros idiomas ( aunque los tweets en inglés pueden tratar de diferentes temas o perspectivas) “.

coloresLa biografía de los usuarios en Twitter, importante fuente de informacion

La información geográfica de la biografía de un usuario de Twitter es otra importante fuente de información, disponible para el 71% de todos los tweets estudiados por Kalev y compañía. “Aproximadamente el 78,4 por ciento de los tweets incluyen la zona horaria del usuario en formato de texto, que ofrece una aproximación de longitud […].” Kalev señala que “cerca de un tercio de todos los lugares en la tierra comparten su nombre con otro lugar del planeta, lo que significa que una referencia a ‘Urbana’ debe resolverse por un sistema de codificación geográfica para determinar a cuál de las 12 ciudades en el mundo podría referirse, incluyendo 11 ciudades en los Estados Unidos con ese nombre “.

 “Hay varias maneras de resolver este desafío,señala Meier, que van desde el desarrollo de un geocodificador Texto completo al uso de diccionarios geográficos  como Wikipedia Gazetteer  y MaxFind, que inluyen traducción automática.

La representatividad de los tweets georefenciados cambia a lo largo del día

  La aplicación de ésto último ha puesto de manifiesto que la “densidad geográfica textual de Twitter cambia más de un 53% durante el transcurso de cada día. Esto tiene enormes ramificaciones para el uso de Twitter como un sistema de vigilancia a nivel mundial, ya que sugiere que la representatividad de los tweets geográficos cambia considerablemente dependiendo de la hora del día. “

“Dicho esto, añade Meier,el éxito de un sistema de vigilancia depende solamente de los datos espaciales. Los factores temporales y las desviaciones de una línea de base también permiten la detección temprana. En cualquier caso, “El pequeño volumen de tweets georeferenciados puede ser dramáticamente mejorado mediante la aplicación de algoritmos de codificación geográfica para el contenido textual y los metadatos de cada tweet.”

Los RT y las menciones no se pueden utilizar para georeferenciar mensajes

Kalet y sus colegas  también llevaron a cabo un análisis exhaustivo de los retweets geo-etiquetados. La principal conclusión es indica que”la geografía juega un papel muy pequeño en la ubicación de los usuarios influyentes, donde el volumen de retweets simplemente es un factor de la población total de tweets provenientes de esa ciudad.”

También calcularon que la distancia geográfica media entre dos usuarios de Twitter conectados por retweets (RT) y quien geolocaliza sus tweets es de 750 millas o 1,200 kilometros. Cuando un usuario de Twitter referencia a otros( citándolos con una@ e incluyendo detrás su cuenta de Twitter), el promedio de la distancia geográfica entre los dos es 744 millas. Esto significa que losRTS  y las @ ‘s no se pueden utilizar para la georreferenciación de datos, incluso cuando éstos concuerdan la zona horaria en la que ambos están situados.

 La siguiente figura muestra la ubicación de los usuarios que han hecho un retweet a otros usuarios. Los datos geográficos provienen de la geolocalización de los tweets etiqueta geográfica (en lugar de la información de su cuenta o los datos de perfil del usuario).

   blanco y negro

El 18,85 de los tweets georeferenciados contiene enlaces a redes sociales

Alrededor de 15,85% de los tweets geo-etiquetados contienen enlaces, señala Meier.  Los enlaces más populares incluyen Foursquare, Instagram, Twitter y Facebook. Si comparamos la geografía de Twitter  frente a la de las noticias principales, Kalev y su equipo han analizado todas las noticias disponibles a través de Google News durante el mismo período que los tweets que recogieron.

Ésto supone más de 3,3 millones de artículos que apuntan a algo menos de 165.000 destinos. Estos últimos son código de color rojo en el gráfico que se halla a continuación, mientras que los tweets son de color azul y las áreas blancas indican un balance igual de ambos.

                                oscuro

“La corriente de medios sociales parece tener significativamente menos cobertura de América Latina y mucho más de África. También cubre China e Irán con mucha más fuerza, dadas sus prohibiciones de Twitter, además de tener una mayor cobertura de la India y la mitad occidental de los Estados Unidos. En general, parece que hay una cobertura más uniforme, con menos agrupamiento en torno a las grandes ciudades.

Twitter perfil geográfico propio

“Esto sugiere que” hay una gran diferencia en los perfiles geográficos de Twitter y medios de comunicación y que la intensidad del discurso mencionando en un país no necesariamente coincide con el intensidad del discurso que emana de ese país en los medios sociales. También sugiere que Twitter no es simplemente un espejo de los medios de comunicación, sino que tiene un perfil geográfico distinto […] “.

 En términos de crecimiento futuro “, Oriente Medio y Europa del Este cuenta con algunas de las mayores áreas de nuevo crecimiento de Twitter, mientras que Indonesia, Europa Occidental, África y América Central tienen una alta proporción de los usuarios de Twitter más influyentes del mundo.”

VN:F [1.9.22_1171]
Rating: 0.0/5 (0 votes cast)
VN:F [1.9.22_1171]
Rating: 0 (from 0 votes)

Deja un comentario