Comandos para leer data sets (Práctica)
Un grupo multidisciplinario logra cumplir más objetivos y abarcar un área más extensa de investigación, siendo un importante aspecto del Data Science la combinación de profesionales en computación, matemática estadística y comercio, uniendo el machine learning, la ingeniería de datos y de software como herramientas para el análisis de una base de datos cuyos estadísticos descriptivos dan una primera visión de la información que se tiene para trabajar y elaborar el proyecto de Inteligencia Artificial.
Comandos para leer bases de datos
Los siguientes comandos ayudan a leer bases de datos en diferentes formatos:
● Leer archivo CSV
Código:
import pandas as pd
df = pd.read_csv(‘IMDB.csv’, encoding = “ISO-8859–1”, usecols = [‘Title’, ‘Genre1’])
df.head()
Resultado:
● Leer archivo XLSX
Código:
df=pd.read_excel(‘IMDB.xlsx’)
df.head()
Resultado:
● Leer archivo JSON
Código:
df=pd.read_json(‘IMDB.json’)
df.head()
Resultado:
● Leer archivo HTML
Código:
pd.read_html(‘IMDB.html’)
Resultado:
● Leer archivo pickle
Código:
df=pd.read_pickle(‘IMDB.p’)
df.head()
Resultado:
● Leer archivo SQL
Código:
df=pd.read_pickle(‘IMDB.p’)
df.head()
Resultado:
● Leer archivo con URL
Código:
medals_url = “http://winterolympicsmedals.com/medals.csv"
x=pd.read_csv(medals_url)
x.head()
Resultado:
Matriz de conocimientos
- Se debe tener diferentes personas con habilidades o especialización en matemáticas y estadística, comercio y computación ya que todas las áreas se entrelazan para la realización de un proyecto eficiente.
- El Data Scientist necesita de las ciencias en la computación junto con las matemáticas y la estadística para las aplicaciones de Machine Learning;
- Las habilidades necesarias dentro de la matriz son:
Regla de Pareto Las cosas se dividen en regla del 80 y 20
- Esta regla establece que de forma general y para varios fenómenos, un aproximado al 80% de las consecuencias proviene del 20% de las causas; en este caso implica que al fijar el 80% del tiempo y esfuerzo a limpiar las bases de datos (Data Cleaning), se aplica solo el 20% de esfuerzo para el modelado de código. Esto se debe a que los datos es la información primordial para aplicaciones de Data Science.
Comandos para vistazo rápido y estadísticos descriptivos en una base de datos
Utilizando una base de datos llamada titanic en formato xlsx, con la información de sus pasajeros, se puede utilizar los siguientes comandos para dar un vistazo rápido y obtener los estadísticos descriptivos deseados de la misma.
● Dimensión de la base
Código:
df.shape
Resultado:
● Contenido de columnas
Código:
df.columns.values
Resultado:
● Ver todas las variables
Código:
df.describe(include= ‘all’)
Resultado:
● Remover una variable indeseada
Código:
df=df[df.columns[1:]]
df.head()
Resultado:
● Media
Código:
df.mean()
Resultado:
● Desviación Estándar
Código:
df.std()
Resultado:
● Valor mínimo y máximo
Código:
df.min()
df.max()
#se obtiene las personas que no pagaron y los que pagaron mucho dinero por el viaje.
Resultado:
Función mín () Función max()
● Valor en el cuantil dado sobre un eje solicitado
Código:
df.quantile(0.99)
Resultado:
● Agrupa los valores deseados de un dataframe
Código:
class_group=df.groupby(‘Pclass’)
for name, index in class_group:
print(f’Class:{name}:{len(index)}’)
Resultado:
● Elemento mayor
Código:
class_max=df.loc[(df.Pclass==3)]
class_max.loc[(class_max.Age==class_max.Age.max())]
Resultado:
● Identifica NaN en Dataframe
Código:
df_nan_fare=df.loc[(df.Fare.isna())]
df_nan_fare
Resultado:
Autores:
- Cristina Acosta
- Jonathan Gavilanes
- Lucía Loor
- Xavier Ortiz
Código — Andrea Escobar