Importar datos de diferentes fuentes con Python

July 7, 2023 · 2 min read

Creador de entredata.org

Flat files

CSV

import pandas as pd
# puede ser un file o una url
pd.read_csv('file.csv') 
pd.read_csv('file.txt', sep='\t')

Excel

import pandas as pd
# puede ser un file o una url
# en caso de que sheetname, no este asignado, se lee la primera hoja
xls = pd.ExcelFile('file.xlsx', sheetname=None) # Leer todas las hojas
xls.keys() # Nombre de las hojas
xls['sheet'] # Leer hoja

SAS

from sas7bdat import SAS7BDAT
with SAS7BDAT('file.sas7bdat') as file:
    df_sas = file.to_data_frame()

Stata

import pandas as pd
# puede ser un file o una url
df = pd.read_stata('file.dta')

HDF5

Los archivos HDF5 son una buena opción para guardar grandes cantidades de datos. Se pueden leer con la librería h5py

import h5py
data = h5py.File('file.hdf5', 'r')
data.keys() # Nombre de los grupos

group = data['group'] # Leer grupo
group.keys() # Nombre de los datasets

dataset = group['dataset'] # Leer dataset
dataset.shape # Dimensiones
dataset.value # Valores

Matlab

import scipy.io
mat = scipy.io.loadmat('file.mat')

Pickled files

Los archivos pickled son archivos binarios de Python. Se pueden leer con la librería pickle

import pickle
with open('file.pkl', 'rb') as file:
    data = pickle.load(file)

SQL

from sqlalchemy import create_engine
engine = create_engine('sqlite:///file.sqlite')
table_names = engine.table_names() # Nombre de las tablas

with engine.connect() as con:
    rs = con.execute('SELECT * FROM table')
    df = pd.DataFrame(rs.fetchall())
    df.columns = rs.keys()

Con Pandas

import pandas as pd
from sqlalchemy import create_engine
engine = create_engine('sqlite:///file.sqlite')

df = pd.read_sql_query('SELECT * FROM table', engine)