Por Jaime López <jaime.lopez@funde.org>
Junio 8, 2016
En este notebook se ha procesado el dataset de reservas de información en el Órgano Ejecutivo. El lenguaje es Python.
#Carga de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
# Lectura del dataset
data = pd.read_csv('datos.csv')
data.columns
data.head()
# Número de entidades
len(data)
# Número total de reservas
data['Entradas'].sum()
# Media aritmética
data['Entradas'].mean()
# Desviación estándar
data['Entradas'].std()
labels = ['0', '1-10', '11-100', '>100']
bins = []
bins.append(data[data['Entradas'] == 0]['Entradas'].count())
bins.append(data[(data['Entradas'] >= 1) & (data['Entradas'] <= 10)]['Entradas'].count())
bins.append(data[(data['Entradas'] >= 11) & (data['Entradas'] <= 100)]['Entradas'].count())
bins.append(data[data['Entradas'] > 100]['Entradas'].count())
# Frecuencias absolutas
bins
# Frecuencias relativas
[v / len(data) * 100 for v in bins]
# Gráfica del histograma
x_pos = range(len(bins))
plt.bar(x_pos, bins, align='center', color='g', alpha=0.5)
plt.xticks(x_pos, labels)
data[data['Entradas'] == 0]['Entidad']
data.sort_values(by=['Entradas'], ascending=False)[['Entidad', 'Entradas']].head(10)
sectors = data.groupby(['Sector'])['Entradas'].sum()
sectors
sectors.plot(kind='bar', color='g', alpha=0.5)