Que es Random Forest algoritmo de Machine Learning Python

Random Forest es un algoritmo de Machine Learning de Bagging de Arbol de Decision, es muy popular para clasificar, ya que funciona muy bien con cualquier tipo de set de datos.

Cada Arbol utiliza un Subconjunto de atributos(features), y un boostrap de set de entrenamiento, es decir con este ultimo, vamos a tener el tamaño original del set de entrenamiento pero con repetidos ademas de registros que van a quedar afuera (OOB)out of bag, por lo tanto el clasificador no vera los datos de train en su totalidad.

Datos que podrian Interesarle para comprender mejor:

Grafico Random Forest funcionamiento

Grafico Random Forest funcionamiento
Random Forest, aplicamos boostrap al set de entrenamiento por cada grafico( en el grafico de 1 a n) y elegimos al azar un subconjunto de features, en este caso, es de dos features

Random Forest, aplicamos boostrap de 5 registros al set de entrenamiento por cada grafico( en el grafico de 1 a n) dejando en algunos casos algunos registros ya que podemos repetirlos ,y elegimos al azar un subconjunto de features, en este caso, es de dos features, entonces tenemos n arboles diferentes que luego lo vamos a combinar para dar el resultado final.

Hiperparametros

-Cantidad de Arboles:Mientras mas arboles mejores resultados, pero hay que tener una compensacion entre performance y resultados, ya que podriamos seguir agregando arboles pero la mejora es casi infima, por lo tanto no convendria perder performance.

-Cantidad de Atributos por Arbol: es mas criticos cuantos atributos utilizar por cada Arbol, y puede llegarse a buscar por gridsearch usando OOB(OUT OF BAG) para medir la precision de cada arbol teniendo en cuenta cuantos atributos utilizamos para cada arbol.

Random Forest (Bonus)

Podemos tener una medida de distancia , esto se hace clasificando dos puntos con cada arbol, la distancia es el numero de arboles en los cuales la prediccion de clase son distintas, a este numero que nos da, podemos normalizarlo entre [0,1] dividiendo por la cantidad total de arboles, tenemos la distancia random forest

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *