4 posts tagged with "pandas"

Resampling de series temporales con Pandas

July 18, 2023 · 3 min read

Creador de entredata.org

En este articulo vamos a ver como hacer resampling de series de tiempo con pandas. El resampling es un proceso de conversión de series de tiempo de una frecuencia a otra. La frecuencia puede ser diaria, mensual, trimestral, anual, etc. Por ejemplo, podemos convertir una serie de tiempo con frecuencia diaria a una serie de tiempo con frecuencia mensual. También podemos convertir una serie de tiempo con frecuencia mensual a una serie de tiempo con frecuencia anual.

1. Frecuencias de series de tiempo

Las series de tiempo pueden tener diferentes frecuencias, ahora vamos a ver las frecuencias que podemos encontrar en pandas.

Código	Descripción
B	Frecuencia de negocios
C	Frecuencia personalizada
D	Frecuencia diaria
W	Frecuencia semanal
M	Frecuencia mensual
Q	Frecuencia trimestral
A	Frecuencia anual
H	Frecuencia horaria
T	Frecuencia minutal
S	Frecuencia segundal

2. Importar librerías

Primero empesaremos importando las librerías que vamos a utilizar.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

3. Cagar y preparar los datos

Ahora vamos a crear un DataFrame con datos usando una frecuencia diaria.

date_range = pd.date_range('01/01/2020', periods=365, freq='D')
# crearemos datos para la demostración
data = np.random.randn(len(date_range))
df = pd.DataFrame(data, index=date_range, columns=['Value'])
# graficamos los datos
df.plot()
plt.show()

4. Resampling a una frecuencia mas baja (downsampling)

Ahora vamos a convertir la serie de tiempo con frecuencia diaria a una serie de tiempo con frecuencia mensual. Para hacer esto vamos a usar el método resample(), al tener una frecuencia mas baja tenemos que especificar como queremos que se agreguen los datos, vamos a tener que ingresar una función de agregación. En este caso vamos a usar la función mean() para calcular el promedio de los datos, peru tu puedes usar cualquier función de agregación que necesites.

df_monthly_mean = df.resample('M').mean()
df_monthly_mean.head(5)
# graficamos los datos
df_monthly_mean.plot()
plt.show()

5. Resampling a una frecuencia mas alta (upsampling)

Ya vimos como disminuir la frecuencia, ahora veremos como aumentar la frecuencia. Para hacer esto vamos a usar el método resample() y especificar la frecuencia que queremos. En este caso vamos a aumentar la frecuencia de diaria a horaria, para esto vamos a usar el código H que significa frecuencia horaria.

df_hourly = df.resample('H').ffill() # otros metodos: bfill, interpolate

Para poder ver con mas detalle los datos haremos un acercamiento a un periodo de tiempo especifico.

df_hourly.loc['2020-01-01':'2020-01-30'].plot()
plt.show()

6. Manejar los datos faltantes

Como pudimos ver en el ejemplo anterior cuando aumentamos la frecuencía de diaria a horaria, muchos valores se convirtieron en NaN. Para solucionar esto vamos a usar el método interpolate() para interpolar los valores faltantes.

df_hourly = df.resample('H').interpolate()
df_hourly.loc['2020-01-01':'2020-01-30'].plot()
plt.show()

7. Resampling con multiples metodos de agregación

Tambien podemos hacer un resampling con multiples métodos de agregación. Para hacer esto vamos a usar el método agg() y especificar los métodos de agregación que queremos usar.

df_weekly = df.resample('W').agg(['mean', 'std', 'min', 'max'])
df_weekly.plot()
plt.show()

Eso es todo por ahora, espero que este articulo te haya sido de ayuda

Comparar series de tiempo

July 12, 2023 · 3 min read

Darvin Cotrina

Creador de entredata.org

Comparar series de tiempo con pandas

Comparar series de tiempo con pandas, de algunas acciones de las principales empresas tecnológicas.

1. Importar librerías

Para este ejercicio, se necesitara de las siguientes librerías:

pip install pandas
pip install matplotlib
pip install yfinance

Usaremos la librería yfinance para obtener los datos de las acciones de las empresas tecnológicas, hay otras librearías que también pueden ayudar con esta tarea como pandas_datareader o quandl.

import pandas as pd
import matplotlib.pyplot as plt
import yfinance as yf

2. Obtener datos

Para este ejemplo, se obtendrán los datos de las acciones de las empresas tecnológicas desde el 2015 de google, amazon, facebook, apple y microsoft.

tickets = ['GOOG', 'AMZN', 'META', 'AAPL', 'MSFT']
start_date = '2015-01-01'
end_date = '2023-01-01'

df = yf.download(tickets, start=start_date, end=end_date)['Adj Close']
df.head()

[*********************100%***********************]  5 of 5 completed

	AAPL	AMZN	GOOG	META	MSFT
Date
2015-01-02	24.531763	15.4260	26.168653	78.449997	40.620667
2015-01-05	23.840666	15.1095	25.623152	77.190002	40.247116
2015-01-06	23.842913	14.7645	25.029282	76.150002	39.656406
2015-01-07	24.177238	14.9210	24.986401	76.150002	40.160259
2015-01-08	25.106184	15.0230	25.065184	78.180000	41.341694

3. Normalizar datos

Para poder comparar los datos vamos a normalizarlos, para esto se usará la siguiente fórmula:

$$ \frac{P_t}{P_0} * 100 $$ Donde $P_t$ es el precio en el tiempo $t$ y $P_0$ es el precio inicial.

normalized_df = df / df.iloc[0] * 100
normalized_df.head()

	AAPL	AMZN	GOOG	META	MSFT
Date
2015-01-02	100.000000	100.000000	100.000000	100.000000	100.000000
2015-01-05	97.182847	97.948271	97.915438	98.393888	99.080393
2015-01-06	97.192006	95.711785	95.646043	97.068202	97.626183
2015-01-07	98.554834	96.726305	95.482179	97.068202	98.866569
2015-01-08	102.341540	97.387528	95.783238	99.655836	101.775026

4. Graficar datos

Por ultimo grafiaremos los datos para poder compararlos y ver como se han comportado en el tiempo.

normalized_df.plot(figsize=(15, 10))
plt.show()

5. Conclusiones

Como hemos podido ver hacer una comparación de series de tiempo es muy sencillo con pandas, y nos permite ver como se han comportado las acciones de las empresas tecnológicas en los últimos años, las concluciones respecto al comportamiento de las acciones de las empresas tecnológicas se las dejo a ustedes.

¿Como ver los días de la semana usando pandas?

July 10, 2023 · 2 min read

Darvin Cotrina

Creador de entredata.org

¿Como ver los días de la semana usando pandas?`

Con pandas podemos ver de forma muy sencilla los días de la semana de una fecha en específico, para esto usaremos la función weekday_name y con dayofweek podemos ver el número del día de la semana.

import pandas

day = pandas.to_datetime('2023-07-10')
print(day.dayofweek, day.day_name())

0 Monday

# todos los días de la semana
week = pandas.date_range(start='2023-07-10', periods=7, freq='D')
for day in week:
    print(day.dayofweek, day.day_name())

Monday
Tuesday
Wednesday
Thursday
Friday
Saturday
Sunday

# df con los dias de la semana
df = pandas.DataFrame(week, columns=['date'])
df['dayofweek'] = df['date'].dt.dayofweek
df['dayname'] = df['date'].dt.day_name()
df.set_index('date', inplace=True)
df

	dayofweek	dayname
date
2023-07-10	0	Monday
2023-07-11	1	Tuesday
2023-07-12	2	Wednesday
2023-07-13	3	Thursday
2023-07-14	4	Friday
2023-07-15	5	Saturday
2023-07-16	6	Sunday

Vectorize de numpy vs apply de pandas

June 1, 2023 · One min read

Darvin Cotrina

Creador de entredata.org

Tanto numpy como pandas tienen funciones que permiten aplicar una funcion a un array o dataframe, respectivamente, de forma vectorizada. Esto significa que la funcion se aplica a todos los elementos del array o dataframe, sin necesidad de iterar sobre ellos. Esto es mucho mas eficiente que iterar sobre los elementos, ya que no se necesita hacer un loop en python, sino que la funcion se aplica en C.

import numpy as np
import pandas as pd

# comparación de vectorize de numpy vs apply de pandas

# vectorize de numpy
def f(x):
    return x**2 + 1

array = np.arange(100000, dtype=np.int16)

%timeit np.vectorize(f)(array)
# pandas apply
df = pd.DataFrame({'x': array})
%timeit df['x'].apply(f)

24.2 ms ± 1.56 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
40.7 ms ± 1.01 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

Esta es una comparación muy simple entre ambas formas de aplicar una funcion, pero nos da una idea bastante clara de la diferencia de performance entre ambas, como podemos ver vectorize fue mucho mas rapido que apply.

1. Frecuencias de series de tiempo​

2. Importar librerías​

3. Cagar y preparar los datos​

4. Resampling a una frecuencia mas baja (downsampling)​

5. Resampling a una frecuencia mas alta (upsampling)​

6. Manejar los datos faltantes​

7. Resampling con multiples metodos de agregación​

Comparar series de tiempo con pandas

1. Importar librerías​

2. Obtener datos​

3. Normalizar datos​

4. Graficar datos​

5. Conclusiones​

¿Como ver los días de la semana usando pandas?`

1. Frecuencias de series de tiempo

2. Importar librerías

3. Cagar y preparar los datos

4. Resampling a una frecuencia mas baja (downsampling)

5. Resampling a una frecuencia mas alta (upsampling)

6. Manejar los datos faltantes

7. Resampling con multiples metodos de agregación

1. Importar librerías

2. Obtener datos

3. Normalizar datos

4. Graficar datos

5. Conclusiones