Análisis de datos en Twitter (práctica)

Bootcamp AI
5 min readSep 1, 2020

Mediante una cuenta de desarrollador, es posible acceder remotamente a toda la información de Twitter (todos los tweets con su respectiva metadata) para realizar análisis de datos, incluyendo búsquedas de tweets que son tendencia en cierta región, búsquedas por hashtag, identificación de palabras comunes, identificación de tweets populares (por número de retweets) etc. Esta es una fuente de información muy valiosa ya que Twitter proporciona información en tiempo casi real de la reacción del público frente a todo tipo de acontecimientos (relacionados a política, salud, deportes, celebridades, desastres naturales y en general cualquier tema de interés público).

Creación de api en Twitter y generación de credenciales

El primer paso para poder utilizar la información de twitter para análisis de datos, se debe crear una api siguiendo los paso en https://dev.twitter.com/apps. En este proceso, deben crearse las credenciales consumer key, consumer secret, access token y access token secret en la el menu ‘Key and Access Tokens’. En python, se deben almacenar dichas credenciales en un archivo pickle para no tener que ingresarlas manualmente cada vez que se corra el programa. Es recomendable descargar el archivo y borrarlo de la nube ya que su contenido es confidencial y bastante sensible.

Se debe instalar el complemento de Twitter en python para continuar con los ejemplos.

Análisis de tendencias en tweets

Se pueden analizar hashtags que son tendencia en Twitter ya sea a nivel mundial o en una ubicación geográfica específica. Para ello se utiliza un identificador numérico de tipo WOE (Where On Earth de Yahoo!). Esto nos permite extraer información sobre las tendencias de una región determinada.

Esta información puede almacenarse en una base de datos para su manipulación

La información puede desplegarse en formato JSON para mejor visualización.

Para determinar las tendencias en común en dos regiones diferentes, se puede realizar una operación de intersección en la base de datos.

Resultados de búsqueda

Se puede extraer también información de resultados de búsqueda (por ejemplo búsqueda de un hashtag en específico). La información retornada por el buscador es el metadata de los tweets que correspondan al hashtag buscado; incluye datos como fecha de publicación, lugar, usuario, número de retweets, etc. de cada tweet. Es recomendable filtrar resultados duplicados.

Extracción de información de tweets

Se puede extraer únicamente cierta información específica de cada tweet, como texto, nombre de usuario y hashtags incluidos en el mismo.

Distribución de frecuencia de palabras

Otra aplicación útil es extraer y mostrar en una tabla la frecuencia con la que las palabras aparecen en los tweets.

Búsqueda de tweets más populares

Se puede generar una tabla con la información y el texto de los tweets más populares (aquellos con mayor número de retweets) de un hashtag determinado.

Ciencia de datos para ciberseguridad

Conceptos importantes

● Datos: Hechos, transacciones, eventos, etc. que han sido registrados en algún momento.

● Información: Datos procesados y comunicados que pueden ser entendidos e interpretados.

● Seguridad de la información: Protección de la información independientemente de su formato.

● Ciberseguridad: Protección de activos digitales

● Confidencialidad: Protección contra accesos no autorizados

● Integridad: Protección contra modificaciones no autorizadas

● Disponibilidad: Protección contra interrupciones en el acceso

Pilares de la ciberseguridad

  1. Identificar: Usar el entendimiento de la organización para minimizar el riesgo de los sistemas, activos, datos y capacidades.
  2. Proteger: Diseñar salvaguardias para limitar el impacto de los eventos potenciales en servicios críticos e infraestructura.
  3. Detectar: Implementar actividades para identificar la ocurrencia de un evento de ciberseguridad
  4. Responder: Tomar las medidas adecuadas después de saber de un evento de seguridad.
  5. Recuperar: Planificar para tener resiliencia y recuperar de forma oportuna los servicios y capacidades comprometidos.

Roles en la ciberseguridad

Relación entre ciberseguridad y ciencia de datos

Se utiliza la ciencia de datos para identificar campañas de ciberataque, detectar malware y comprender los cambios en el panorama de amenazas.

Principales aplicaciones:

● Detección de malware

● Detección de intrusos

● Ingeniería social

● Penetration testing

En conclusión, es recomendable que los científicos de datos trabajen directamente con los equipos de seguridad dentro de las organizaciones. El resultado final será una mejor comprensión del entorno de ciberseguridad. Un experto en las dos áreas se conoce como Cibersecurity Data Scientist (CSDS)

Taller práctico

Se llevó a cabo un taller en el cual, aplicando las técnicas de análisis de datos en Twitter previamente aprendidas, se pudo identificar al usuario responsable de un ciberataque a la infraestructura de Banred. También se pudo identificar la ciudad de orígen del ataque.

Autores:

  • Jean Pierre Von Lippke
  • Juan Valdez
  • Stefano Hurtado
  • Bryan Loarte

Código — Andrea Escobar

Conoce más:

Registrate en el programa de Python for Data Science.

--

--