Comandos para leer data sets (Práctica)

Image for post
Image for post

Un grupo multidisciplinario logra cumplir más objetivos y abarcar un área más extensa de investigación, siendo un importante aspecto del Data Science la combinación de profesionales en computación, matemática estadística y comercio, uniendo el machine learning, la ingeniería de datos y de software como herramientas para el análisis de una base de datos cuyos estadísticos descriptivos dan una primera visión de la información que se tiene para trabajar y elaborar el proyecto de Inteligencia Artificial.

Comandos para leer bases de datos

Los siguientes comandos ayudan a leer bases de datos en diferentes formatos:

Leer archivo CSV

Código:

import pandas as pd

df = pd.read_csv(‘IMDB.csv’, encoding = “ISO-8859–1”, usecols = [‘Title’, ‘Genre1’])

df.head()

Resultado:

Image for post
Image for post

Leer archivo XLSX

Código:

df=pd.read_excel(‘IMDB.xlsx’)

df.head()

Resultado:

Image for post
Image for post

Leer archivo JSON

Código:

df=pd.read_json(‘IMDB.json’)

df.head()

Resultado:

Image for post
Image for post

Leer archivo HTML

Código:

pd.read_html(‘IMDB.html’)

Resultado:

Image for post
Image for post

Leer archivo pickle

Código:

df=pd.read_pickle(‘IMDB.p’)

df.head()

Resultado:

Image for post
Image for post

Leer archivo SQL

Código:

df=pd.read_pickle(‘IMDB.p’)

df.head()

Resultado:

Image for post
Image for post

Leer archivo con URL

Código:

medals_url = “http://winterolympicsmedals.com/medals.csv"

x=pd.read_csv(medals_url)

x.head()

Resultado:

Image for post
Image for post

Matriz de conocimientos

- Se debe tener diferentes personas con habilidades o especialización en matemáticas y estadística, comercio y computación ya que todas las áreas se entrelazan para la realización de un proyecto eficiente.

Image for post
Image for post
Image for post
Image for post

Regla de Pareto Las cosas se dividen en regla del 80 y 20

- Esta regla establece que de forma general y para varios fenómenos, un aproximado al 80% de las consecuencias proviene del 20% de las causas; en este caso implica que al fijar el 80% del tiempo y esfuerzo a limpiar las bases de datos (Data Cleaning), se aplica solo el 20% de esfuerzo para el modelado de código. Esto se debe a que los datos es la información primordial para aplicaciones de Data Science.

Comandos para vistazo rápido y estadísticos descriptivos en una base de datos

Utilizando una base de datos llamada titanic en formato xlsx, con la información de sus pasajeros, se puede utilizar los siguientes comandos para dar un vistazo rápido y obtener los estadísticos descriptivos deseados de la misma.

Dimensión de la base

Código:

df.shape

Resultado:

Image for post
Image for post

Contenido de columnas

Código:

df.columns.values

Resultado:

Image for post
Image for post

Ver todas las variables

Código:

df.describe(include= ‘all’)

Resultado:

Image for post
Image for post

Remover una variable indeseada

Código:

df=df[df.columns[1:]]

df.head()

Resultado:

Image for post
Image for post

Media

Código:

df.mean()

Resultado:

Image for post
Image for post

Desviación Estándar

Código:

df.std()

Resultado:

Image for post
Image for post

Valor mínimo y máximo

Código:

df.min()

df.max()

#se obtiene las personas que no pagaron y los que pagaron mucho dinero por el viaje.

Resultado:

Image for post
Image for post
Image for post
Image for post

Función mín () Función max()

Valor en el cuantil dado sobre un eje solicitado

Código:

df.quantile(0.99)

Resultado:

Image for post
Image for post

Agrupa los valores deseados de un dataframe

Código:

class_group=df.groupby(‘Pclass’)

for name, index in class_group:

print(f’Class:{name}:{len(index)}’)

Resultado:

Image for post
Image for post

Elemento mayor

Código:

class_max=df.loc[(df.Pclass==3)]

class_max.loc[(class_max.Age==class_max.Age.max())]

Resultado:

Image for post
Image for post

Identifica NaN en Dataframe

Código:

df_nan_fare=df.loc[(df.Fare.isna())]

df_nan_fare

Resultado:

Image for post
Image for post

Autores:

Código — Andrea Escobar

Conoce más:

Registrate en el programa de Python for Data Science.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store