RafaOnDataScience

lunes, 13 de diciembre de 2021

Mito: una de las bibliotecas de Python más geniales que hayas visto. Parte 2

En un post anterior me referí a como instalar Mito, una librería de Python que puede ayudarte muchísimo a realizar procesamiento de datos. Te convendría leerlo antes de continuar.

Una vez instalado Mito podemos subir cualquier conjunto de datos que queramos analizar. y se abrirá en una hoja muy parecida a Excel. Lo qu e Mito intenta hacer (y de manera bastante buena) es incorporar la experiencia que los usuarios tienen en #Excel a #Python y así reducir enormemente la necesidad de #codificar a mano las operaciones que se quieran hacer con los datos: preparación de datos, limpieza de datos, transformación, análisis exploratorio de datos, creación de gráficos, etc

viernes, 10 de diciembre de 2021

Mito: una de las bibliotecas de Python más geniales que hayas visto. Parte 1

mito-python-low-code-1

Aunque tuve conocimiento de Mito hace un tiempo, nunca tuve la oportunidad de probarlo, pero recientemente decidí probarlo, ¡y es impresionante!

Antes que nada, esto no es contenido patrocinado. No hago ningún tipo de asociación pagada. Es una opinión sincera sobre esta librería de python: Mito.

Ahora, volvamos a Mito. Mito es una librería (modulo) de Python que le ayuda a realizar la preparación de datos, limpieza de datos, transformación, análisis exploratorio de datos, creación de gráficos, etc con muy poco uso de código de python.A través de una GUI con solo una o dos líneas de códigos y unos pocos clics puede realizar bastante analisis de datos

Instalación

El proceso de instalación es fácil y rápido. Por razones de seguridad, le recomiendo que cree un entorno para Mito. Su sitio web muestra cómo puede crear un entorno Python. Para hacerlo, puede copiar y pegar uno de los dos códigos en su terminal:

Mac:

python3 -m venv mitoenv
source mitoenv/bin/activate
python -m pip install mitoinstaller
python -m mitoinstaller install

Windows:

python3 -m venv mitoenv
mitoenv\Scripts\activate.bat
python -m pip install mitoinstaller
python -m mitoinstaller install

Tambien se puede hacer con COnda:

conda create -n mitoenv python=3.8
conda activate mitoenv
python -m pip install mitoinstaller
python -m mitoinstaller install

Después de debería estar listo para comenzar. Tenga en cuenta que Mito creará un archivo JupyterLab para usted con el código de inicio. También puede iniciar un cuaderno de JupyterLab escribiendo jupyter lab en su Terminal.

Iniciar Mito no podría ser más fácil. Solo necesita importarlo escribiendo

import mitosheet

e iniciarlo escribiendo

mitosheet.sheet ().

¡Esa es toda la codificación que usaremos hoy!

EL resultado:

lunes, 22 de noviembre de 2021

Algoritmos basicos en machine learning. 2. Regresión logística

Regresión logística: - La regresión logística es un algoritmo de clasificación basado en la función que se utiliza en el método: la función logística o función sigmoidea.

Es una curva en forma de S que se utiliza para predecir un resultado binario (1/0, Sí / No, Verdadero / Falso) dado un conjunto de variables independientes.

También se puede considerar como un caso especial de regresión lineal cuando la variable de salida (Y) es categórica, donde usamos el logaritmo de probabilidades como variable dependiente (X).

Predice la probabilidad de ocurrencia de un evento ajustando los datos a una función logit.

p (X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

bo (intercepto) y b1 son los coeficientes del modelo

X variable independiente

Y variable dependiente

Ejemplo: Se tiene un experimento con ratones en donde la variable dependiente de salida es categórica: Obeso o No Obeso. La regresión logística se parecería a lo que se muestra en la figura de abajo:

jueves, 18 de noviembre de 2021

Python, graficar datos categoricos

Cuando exploramos datos pensamos en variables con números pero que sucede con la exploración de variables que no son numéricas (por ejemplo, sexo, usa o no usa internet, le gusta o no le gusta un alimento, etc). Son las llamadas variables categóricas.

Las dos categorías principales de datos categóricos son nominales y ordinales.

En el atributo de datos categóricos nominales, no existe el concepto de ordenar entre los valores de ese atributo.

Los atributos categóricos ordinales tienen algún sentido o noción de orden entre sus valores.

Los gráficos que se utilizan generalmente para visualizar este tipo de datos son

grafico de barras
grafico de conteo
diagrama de caja
enjambre
diagrama de factores

Antes de continuar, importemos algunos datos de muestra con los que jugaremos. Usemos un conjunto de datos de muestra "Sugerencias" que brinde información sobre las facturas de un restaurante.

Grafico de Barras

Esta gráfica le permite obtener datos agregados de una característica categórica en sus datos. El ** barplot ** es un gráfico general que le permite agregar los datos categóricos basados en alguna función, por defecto la media:

Grafico de conteo (Countplot):

Esto es esencialmente lo mismo que el diagrama de barras, excepto que el estimador está contando explícitamente el número de ocurrencias. Es por eso que solo pasamos el valor x:

Diagrama de caja:

Un diagrama de caja es una forma estandarizada de mostrar la distribución de datos basada en un resumen de cinco números (“mínimo”, primer cuartil (Q1), mediana, tercer cuartil (Q3) y “máximo”).

Grafico de enjambres (Swarmplot):

Swarmplot: los puntos se ajustan (solo a lo largo del eje categórico) para que no se superpongan. Esto proporciona una mejor representación de la distribución de valores, aunque no escala tan bien a un gran número de observaciones (tanto en términos de la capacidad de mostrar todos los puntos como en términos del cálculo necesario para organizarlos).

Diagrama de factor:

factorplot es la forma más general de un diagrama categórico. Puede tomar un parámetro ** tipo ** para ajustar el tipo de gráfico: (variando el Kind en el cèdigo se puede cambiar de un tipo de grafico a otro)

COmo puede ver el grafico obtenido con factorplot es exactamente igual al obtenido con barplot, ya que kind = bar en el còdigo.

basado en: https://medium.com/@gauravdahiya/visualising-categorical-data-8fe887c98e57

lunes, 15 de noviembre de 2021

REGRESION LINEAL EXPLICADA

En un post anterior comenté sobre el algoritmo básico y mejor entendido del machine learning: la regresión lineal.

El análisis de regresión es una metodología estadística que permite determinar la fuerza de la relación de dos variables. La regresión no se limita a dos variables, se pueden utilizar más de dos variables.

Los resultados de la regresión ayudan a predecir un valor desconocido en función de la relación con las variables de predicción. Por ejemplo, la altura y el peso de una persona suelen tener una relación. Generalmente, las personas más altas tienden a pesar más. Podríamos usar el análisis de regresión para ayudar a predecir el peso de un individuo, conociendo su altura.

Cuando hay una sola variable de entrada, la regresión se denomina Regresión lineal simple. Se utiliza la variable única (independiente) para modelar una relación lineal con la variable objetivo (dependiente). Esto se hace ajustando un modelo para describir la relación.

Si hay más que una variable de predicción, la regresión se denomina Regresión lineal múltiple.

Cuando se intenta encontrar la "línea de mejor ajuste", el modelo de regresión se le llama Regresión de mínimos cuadrados ordinarios. Esto significa que se está utilizando la suma más pequeña de errores al cuadrado. El error es la diferencia entre el valor de y predicho restado del valor de y real. La diferencia se eleva al cuadrado, por lo que hay una diferencia absoluta y se suma.

Coeficientes de regresión

Al realizar una regresión lineal simple, los cuatro componentes principales son:

Variable dependiente, X, : la variable objetivo / será estimada y predicha
Variable independiente ,Y: variable predictora / utilizada para estimar y predecir
Pendiente: ángulo de la línea / indicado como "m" ò 𝛽1
Intercepto: donde la función cruza el eje y / se indica como c o 𝛽0
La ecuación de regresión puede expresarse como (ambas formas son vàlidas):

Y = m + cX
Y = 𝛽0 + 𝛽1 X

Los dos últimos, pendiente e intercepto, son los coeficientes / parámetros del modelo de regresión lineal, De lo que se trata es de encontrar la línea recta (entre un número infinito de líneas) que mejor se ajuste a los datos.

R-cuadrado / coeficiente de determinación (R-squared)

El objetivo de la regresión lineal es encontrar la "línea de mejor ajuste" que describe los datos. Sin embargo, la línea encontrada no representa completamente la relación entre las variables ya que habrà error entre el valor medido y el predicho (y_medido - y_predicho). El coeficiente R-Cuadrado se usa para determinar qué tan bien se ajusta un modelo a los datos. Este coeficiente también se conoce como coeficiente de determinación.