Random Forest Regressor

Random Forest (floresta aleatória) é uma generalização da operação Árvore de Decisão, em que se utiliza um conjunto de árvores de decisão (aleatórias) a fim de minimizar o sobreajuste (overfitting) de cada modelo individual de árvore gerado para os dados de entrada.

Conectores

Entrada	Saída
Dados utilizados para treinar o modelo	Dados de saída e modelo do algoritmo de regressão

Tarefa

Nome da Tarefa

Aba Execução

Parâmetro	Detalhe
Atributo(s) previsor(es)	Atributo(s) que será(ão) usado(s) para treinamento
Atributo com o rótulo	Atributo a ser predito
Atributos com a predição	Atributo contendo a predição do modelo
Profundidade máxima	Profundidade máxima permitida nas árvores de decisão
Número de árvores	O número de árvores na floresta
Máximo de bins	Número de bins utilizados para discretizar uma variável contínua
Estratégia para subconjunto de features	Define o cálculo usado para definir a quantidade de atributos que será passado para cada árvore
Ganho de informação (info gain) mínimo	Define o mínimo de ganho de informação (information gain) para que haja a utilização de uma feature na divisão de um nó
Iterações máximas	Define o número máximos de iterações para a convergência do algoritmo. O seu valor padrão é 100
Regularização	Define o valor para regularizar o ajuste da função de perda do algoritmo. O seu o valor padrão é 0
Mix. para ElasticNet (entre 0 e 1)	Define o parâmetro de ajuste usado para a minimização da função objetivo usando uma combinação de L1 e L2. O seu valor por padrão é 0
Métrica para validação cruzada	Define a métrica utilizada dentro da validação cruzada (se aplicável) para avaliar o modelo de classificação dentro das k partições
Atributo com o número da partição (fold)	Define o atributo a ter o número da partição para realizar uma validação cruzada (se aplicável)

Aba Aparência

Aba Resultados

Exemplo de Utilização

Objetivo: Utilizar o modelo do Random Forest para predizer a qualidade de um vinho. \ Base de Dados: Qualidade da Variante Vermelha do Vinho Verde Português

Ler dados

Leia a base de dados por meio da operação Ler dados.
Utilize a operação Divisão percentual para dividir a base de dados em treino e teste. No parâmetro Percentual, calibre-o utilizando 50% dos dados para treinar (1.ª parte) e 50% para testar (2.ª parte).
Na operação Random Forest Regressor, selecione “alcohol”, “chlorides”, “citric_acid”, “density”, “fixed_acidity”, “free_sulfur_dioxide”, “pH”, “residual_sugar”, “sulphates”, “total_sulfur_dioxide” e “volatile_acidity” no campo Atributo(s) previsor(es). Selecione “quality” no campo Atributo com o rótulo e preencha “resultado” no campo Atributo com a predição (novo). Preencha 100 no campo Iterações máximas, 10 no campo Profundidade máxima, 50 no campo Número de árvores, e 0.1 no Ganho de informação. Deixe os demais parâmetros inalterados.\
Na operação Aplicar Modelo, selecione “alcohol”, “chlorides”, “citric_acid”, “density”, “fixed_acidity”, “free_sulfur_dioxide”, “pH”, “residual_sugar”, “sulphates”, “total_sulfur_dioxide” e “volatile_acidity” no campo Atributo(s) previsor(es) e preencha “resultado” no campo Nome do novo atributo (herdado do modelo).
Na operação Avaliar Modelo, selecione “resultado” no campo Atributo usado para predição. Selecione “quality” no campo Atributo usado como label e a métrica “Raiz do erro quadrático médio” como Métrica para avaliação.
Execute o fluxo e visualize o resultado, que neste caso está de acordo com a raiz do erro quadrático médio (Root Mean Square Error ou RMSE):\

Dúvidas e/ou sugestões envie um e-mail para suporte@lemonade.org.br

Keys	Action
`?`	Open this help
`←`	Previous page
`→`	Next page
`s`	Search