Flat files
CSV
import pandas as pd
# puede ser un file o una url
pd.read_csv('file.csv')
pd.read_csv('file.txt', sep='\t')
Excel
import pandas as pd
# puede ser un file o una url
# en caso de que sheetname, no este asignado, se lee la primera hoja
xls = pd.ExcelFile('file.xlsx', sheetname=None) # Leer todas las hojas
xls.keys() # Nombre de las hojas
xls['sheet'] # Leer hoja
SAS
from sas7bdat import SAS7BDAT
with SAS7BDAT('file.sas7bdat') as file:
df_sas = file.to_data_frame()
Stata
import pandas as pd
# puede ser un file o una url
df = pd.read_stata('file.dta')
HDF5
Los archivos HDF5 son una buena opción para guardar grandes cantidades de datos. Se pueden leer con la librería h5py
import h5py
data = h5py.File('file.hdf5', 'r')
data.keys() # Nombre de los grupos
group = data['group'] # Leer grupo
group.keys() # Nombre de los datasets
dataset = group['dataset'] # Leer dataset
dataset.shape # Dimensiones
dataset.value # Valores
Matlab
import scipy.io
mat = scipy.io.loadmat('file.mat')
Pickled files
Los archivos pickled son archivos binarios de Python. Se pueden leer con la librería pickle
import pickle
with open('file.pkl', 'rb') as file:
data = pickle.load(file)
SQL
from sqlalchemy import create_engine
engine = create_engine('sqlite:///file.sqlite')
table_names = engine.table_names() # Nombre de las tablas
with engine.connect() as con:
rs = con.execute('SELECT * FROM table')
df = pd.DataFrame(rs.fetchall())
df.columns = rs.keys()
Con Pandas
import pandas as pd
from sqlalchemy import create_engine
engine = create_engine('sqlite:///file.sqlite')
df = pd.read_sql_query('SELECT * FROM table', engine)