Comandos para leer data sets (Práctica)

Bootcamp AI
4 min readSep 1, 2020

Un grupo multidisciplinario logra cumplir más objetivos y abarcar un área más extensa de investigación, siendo un importante aspecto del Data Science la combinación de profesionales en computación, matemática estadística y comercio, uniendo el machine learning, la ingeniería de datos y de software como herramientas para el análisis de una base de datos cuyos estadísticos descriptivos dan una primera visión de la información que se tiene para trabajar y elaborar el proyecto de Inteligencia Artificial.

Comandos para leer bases de datos

Los siguientes comandos ayudan a leer bases de datos en diferentes formatos:

Leer archivo CSV

Código:

import pandas as pd

df = pd.read_csv(‘IMDB.csv’, encoding = “ISO-8859–1”, usecols = [‘Title’, ‘Genre1’])

df.head()

Resultado:

Leer archivo XLSX

Código:

df=pd.read_excel(‘IMDB.xlsx’)

df.head()

Resultado:

Leer archivo JSON

Código:

df=pd.read_json(‘IMDB.json’)

df.head()

Resultado:

Leer archivo HTML

Código:

pd.read_html(‘IMDB.html’)

Resultado:

Leer archivo pickle

Código:

df=pd.read_pickle(‘IMDB.p’)

df.head()

Resultado:

Leer archivo SQL

Código:

df=pd.read_pickle(‘IMDB.p’)

df.head()

Resultado:

Leer archivo con URL

Código:

medals_url = “http://winterolympicsmedals.com/medals.csv"

x=pd.read_csv(medals_url)

x.head()

Resultado:

Matriz de conocimientos

- Se debe tener diferentes personas con habilidades o especialización en matemáticas y estadística, comercio y computación ya que todas las áreas se entrelazan para la realización de un proyecto eficiente.

  • El Data Scientist necesita de las ciencias en la computación junto con las matemáticas y la estadística para las aplicaciones de Machine Learning;
  • Las habilidades necesarias dentro de la matriz son:

Regla de Pareto Las cosas se dividen en regla del 80 y 20

- Esta regla establece que de forma general y para varios fenómenos, un aproximado al 80% de las consecuencias proviene del 20% de las causas; en este caso implica que al fijar el 80% del tiempo y esfuerzo a limpiar las bases de datos (Data Cleaning), se aplica solo el 20% de esfuerzo para el modelado de código. Esto se debe a que los datos es la información primordial para aplicaciones de Data Science.

Comandos para vistazo rápido y estadísticos descriptivos en una base de datos

Utilizando una base de datos llamada titanic en formato xlsx, con la información de sus pasajeros, se puede utilizar los siguientes comandos para dar un vistazo rápido y obtener los estadísticos descriptivos deseados de la misma.

Dimensión de la base

Código:

df.shape

Resultado:

Contenido de columnas

Código:

df.columns.values

Resultado:

Ver todas las variables

Código:

df.describe(include= ‘all’)

Resultado:

Remover una variable indeseada

Código:

df=df[df.columns[1:]]

df.head()

Resultado:

Media

Código:

df.mean()

Resultado:

Desviación Estándar

Código:

df.std()

Resultado:

Valor mínimo y máximo

Código:

df.min()

df.max()

#se obtiene las personas que no pagaron y los que pagaron mucho dinero por el viaje.

Resultado:

Función mín () Función max()

Valor en el cuantil dado sobre un eje solicitado

Código:

df.quantile(0.99)

Resultado:

Agrupa los valores deseados de un dataframe

Código:

class_group=df.groupby(‘Pclass’)

for name, index in class_group:

print(f’Class:{name}:{len(index)}’)

Resultado:

Elemento mayor

Código:

class_max=df.loc[(df.Pclass==3)]

class_max.loc[(class_max.Age==class_max.Age.max())]

Resultado:

Identifica NaN en Dataframe

Código:

df_nan_fare=df.loc[(df.Fare.isna())]

df_nan_fare

Resultado:

Autores:

  • Cristina Acosta
  • Jonathan Gavilanes
  • Lucía Loor
  • Xavier Ortiz

Código — Andrea Escobar

Conoce más:

Registrate en el programa de Python for Data Science.

--

--