Neste código, utilizamos as bibliotecas Pandas e Scikit-learn para treinar um classificador de árvore de decisão que prevê se um cliente fará uma subscrição em um produto bancário. Utilizamos o conjunto de dados "bank.arff", que contém informações sobre clientes que foram ou não contatados em uma campanha de marketing anterior.
O código segue os seguintes passos:
- Carregamos o arquivo "bank.arff" e criamos um dataframe com Pandas.
- Convertemos as variáveis binárias 'default', 'housing', 'loan' e 'subscribed' em 0 ou 1.
- Convertemos as variáveis categóricas restantes em variáveis numéricas utilizando a codificação one-hot encoding.
- Separamos o conjunto de dados em matriz de características (X) e vetor de destino (y).
- Treinamos um classificador de árvore de decisão com o critério de entropia e ajustamos a matriz de características e o vetor de destino.
- Plotamos a árvore de decisão treinada.
- Plotamos uma matriz de confusão para avaliar a precisão do modelo treinado.
A árvore de decisão gerada e a matriz de confusão fornecem uma visualização do processo de tomada de decisão do modelo e avaliação da sua precisão.