Data Science UFC

Autism Spectrum Disorder Prediction

2019-03-14T00:00:00+00:00

Índice

Descrição do problema
Tipo de problema
Seleção das variáveis
Tipo de modelo
Modelagem
Performance do Modelo
Importância das variáveis (Feature Importance)

Descrição do problema:

É possível realizar um diagnóstico hipotético do autismo apenas utilizando traços comportamentais?

O Transtorno do Espectro Autista é uma condição neurológica que se caracteriza por traços comportamentais nos quais a dificuldade de se relacionar socialmente se mostra frequente e há a presença de outros comportamentos diferenciados, apresentando padrões repetitivos quando interagem com o mundo, além de mostrarem introversão, na maioria dos casos. Então, na tentativa de identificar se era possível fazer uma hipótese diagnóstica, prévia ao diagnóstico, não necessariamente feito por um especialista, foi desenvolvido um modelo de classificação binária para tentar classificar esses indivíduos de acordo com a presença dessa condição: autista ou não-autista.

Tipo de problema:

Imagem 2 - imagem relacionado a um modelo de classificação binário ok

Como o nosso objetivo foi classificar os indivíduos pela presença dessa condição, é preciso escolher algorítimos que podem encontrar um padrão dentro dessa amostra. O próprio objetivo já remete o tipo de problema que é preciso resolver, que é o de classificação.

Classificação é um problema que cobre os algoritmos de aprendizagem de máquina, que trabalham com conjuntos de dados rotulados, ou seja, já possuem previamente o resultado. Num conjunto de dados para problema de classificação, as variáveis que possuem características e a variável resposta (rótulo de classificação) fazem parte do mesmo conjunto de dados a serem observados. Isso permite treinar o modelo de classificação para que posteriormente seja possível inferir a classe esperada de indivíduos ainda não observados.

Os modelos de classificação podem ser simples (binários) ou mais complexos (multi-classe), neste modelo específico o conjunto de dados que foi adquirido no repositório UCI repository é de classificação binária onde está presente apenas duas classes, que confirma a presença e ausência do autismo nos pacientes.

Seleção de Variáveis

Um dos maiores desafios na construção de modelos preditivos é saber escolher as variáveis que serão incluídas. Pensando nisso foi proposto a utilização de uma matriz de correlação, que nos permite observar como as variáveis estão correlacionadas entre si.

A correlação pode ajudar a descobrir se existem variáveis que prejudicam nossa modelagem, pois a partir do momento que duas variáveis possuem alta correlação para o modelo isso significa a presença de duas variáveis com a mesma informação, em contrapartida variáveis com baixa correlação nos informa que elas são independentes entre si e informam coisas distintas. Abaixo, segue a matriz de correlação utilizada.

imagem 4 - Imagem da matriz de correlação das variáveis. ok

Tendo em mãos a matriz de correlação é possível observar alguns pontos:

As variáveis de traços comportamentais A1 Score à A10 Score estão pouco correlacionadas.
A variável result mostra uma alta correlação.

Então, a partir desses pontos analisados podemos concluir que as variáveis de traços comportamentais são viáveis, entretanto a variável result é extremamente enviesada, ou seja, pode levar o algoritmo a aprender a amostra ao invés de generalizar a população.

Tipo de modelo

Levando em conta o tipo de problema e alguns outros pontos que serão explicados posteriormente nos comete então a escolha do método de árvore de decisão.

O que seria um modelo de árvore de decisão?

Modelagem

Performance do modelo

Avaliar um modelo e verificar se ele realmente está se comportando como foi proposto é imprescindível. Partindo desse ponto, dado que o tipo de problema é de classificação, será então utilizado uma matriz de confusão que será executada sobre uma amostra de teste não-observada anteriormente para obter métricas de classificação e estimar a performance esperada do modelo.

A matriz de confusão gerada pelo modelo, pode ser visualizada logo abaixo.

Importância das variáveis ( Feature importance)

Para entender como o modelo desenvolvido interpretou o problema, é preciso entender quais foram as variáveis que tiveram maior importância. Abaixo, segue o gráfico que contém essas importâncias.

De acordo com o gráfico, os traços comportamentais A4 e A10 tiveram maior influência na decisão do modelo para classificar os pacientes. Esses traços estam relacionados a facilidade de realizar inúmeras tarefas simultaneamente e dificuldade de fazer novas amizades, respectivamente A4 e A10.

Com base nisso, é possível ter uma noção de que o modelo está se baseando de forma sensata em atributos que fazem sentido, pois quando é mostrado que a facilidade de realizar inúmeras tarefas é importante na classificação, o modelo não necessariamente está dizendo que quem tem essa facilidade é autista, é no sentido de ausência desse traço comportamental que representa a presença do autismo. Já no de dificuldade de fazer novas amizades é previsivel que isso tenha certa relevância, pois é algo que caracteriza alguém com autismo em diversas literaturas.

Post de Apresentação

2019-03-03T00:00:00+00:00

print("Olá, sou Rayon Nunes")

[dataset] Espectro de Desordem Autista

2019-02-22T00:00:00+00:00

Analisamos o dataset de espectro autista disponível em ufc.lerax.me/datasets/asd. Alinhamos o conhecimento do dataset e a utilização do novo site de data science da UFC. Comentamos sobre os próximos passos a ser seguidos e compreendemos em alto nível sobre as características disponíveis neste dataset. Em breve disponibilizaremos um documento com análise utilizando estatística descritiva.

Descrição do dataset

ASD significa Autistic Spectrum Disoder. Há um texto motivacional descritivo deste dataset também fornecido com sua fonte. Através de uma tradução-livre feita para português, encontra-se abaixo o sumário:

Autistic Spectrum Disorder (ASD) é uma condição de desenvolvimento neuronal associada com significantes custos com cuidados de saúde e diagnósticos antecipados podem reduzir tais custos significativamente. Infelizmente, tempos de espera para um diagnóstico de ASD são demorados e os procedimentos não possuem um custo efetivo. O impacto econômico do autismo e o aumento no número de casos de ASD ao redor do mundo revela uma necessária urgência para métodos de diagnósticos de fácil implementação e acessíveis métodos de prognóstico. Além disso, um prognóstico acessível de ASD eficiente no tempo está relacionado a ajudar profissionais de saude e informar individuos se eles deveriam prosseguir para um diagóstico clinico formal. O rápido crecimento no número de casos ASD ao redor do mundo necessitam de datasets relacionados a traços de comportamentos. No entanto, tais datasets são raros fazendo com que seja difícil a execução através de análises para melhorar a eficiência, sensibilidade, especificidade e acurácia preditiva dos métodos de prognósticos de ASD. Atualmente, datasets muito limitados associados com diagnósticos ou prognósticos estão disponíveis e maioria deles são de natureza genética. Portanto, nós propomos um novo dataset relacionado ao prognóstico de autismo de crianças que contém 20 características para serem utilizadas para subsequente análises, especialmente em determinar traços autísticos influentes e melhorar a classificação de casos de ASD. Neste dataset, registramos dez variáveis comportamentais (AQ-10-child) mais dez características individuais que tem sido provada de serem efetivas na detecção de casos de ASD através de ciência de controle e comportamento.

A seguir uma descrição detalhada de cada uma das variáveis disponíveis no dataset:

Atributo	Descrição
A1_Score	Alta percepção em baixos ruídos que geralmente outros não percebem
A2_Score	Maior concentração na visão do todo em comparação a pequenos detalhes
A3_Score	Facilidade de comunicação com várias pessoas diferentes ao mesmo tempo.
A4_Score	Facilidade de fazer múltiplas tarefas simultaneamente
A5_Score	Dificuldade de manter uma conversa com seus colegas
A6_Score	Facilidade em manter conversas informais
A7_Score	Dificuldade de percepção de intenções e sentimentos em histórias durante a leitura
A8_Score	Dificuldade de brincar com a imaginação fugindo da realidade
A9_Score	Facilidade de reconhecer sentimentos a partir de expressões faciais alheias
A10_Score	Dificuldade de fazer novas amizades
age	Idade
gender	Gênero
ethnicity	Etnia e cor
jundice	Caso 1, o paciente declara possuir a doença de pigmentação Icterícia
austim	Caso 1, foi detectado autismo em qualquer outro familiar anteriormente
contry_of_res	País de residência
used_app_before	Caso 1, significa que através do aplicativo esta pessoa já avaliou o mesmo paciente
result	Score do teste ASD de 1 a 10 baseado na observação das características comportamentais
age_desc	Faixa etária
relation	Relacionamento que a pessoa que orientou o teste tem com a criança
Class/ASD	Variável que queremos estimar: criança pertence ao espectro austista

Estes dados foram coletados através do aplicativo ASDTest disponível para Android e iOS. Um exemplo de report final do aplicativo após as 10 perguntas comportamentais podem ser encontrado neste link.

Análise & Modelo

Estamos trabalhando num modelo de classificação para este dataset neste repositório. Contribuições são bem-vindas.

Referências

Equação de Euler

2019-02-21T00:00:00+00:00

A equação de euler é uma das mais belas conexões entre os números e a geometria. Sua relação advém da conexão do plano complexo e a trigonometria. Podemos deduzi-la a partir da fórmula de euler dada pela exponencial complexa:

\[ e^{i\theta} = \cos{\theta} + i\sin{\theta} \]

Se definirmos \(\theta = \pi\), portanto teremos:

\[ e^{i\pi} = \cos{\pi} + i\sin{\pi} \] \[ e^{i\pi} = -1 + i\cdot0 \] \[ e^{i\pi} + 1 = 0 \]

Hello Linear Regression!

2019-02-21T00:00:00+00:00

B = inv(X'*X)*X'*y

Hello World!

2019-02-21T00:00:00+00:00

print("SOU HACKUDO")

Hidden Post

2018-02-25T00:00:00+00:00

This post has YAML Front Matter of hidden: true and should not appear in paginator.posts.

MathJax Example

2015-08-10T12:08:50+00:00

MathJax is a simple way of including Tex/LaTex/MathML based mathematics in HTML webpages. To get up and running you need to include the MathJax script in the header of your github pages page, and then write some maths. For LaTex, there are two delimiters you need to know about, one for block or displayed mathematics \[ ... \], and the other for inline mathematics \( ... \).

Usage

To enable MathJax support be sure Kramdown is your Markdown flavor of choice and MathJax is set to true in your _config.yml file.

markdown: kramdown
mathjax: true

\[a^2 + b^2 = c^2\]

Here is an example MathJax inline rendering \( 1/x^{2} \), and here is a block rendering:

\[ \frac{1}{n^{2}} \]

The only thing to look out for is the escaping of the backslash when using markdown, so the delimiters become \\[ ... \\] and \\( ... \\) for inline and block maths respectively.

\[\mathbf{X}\_{n,p} = \mathbf{A}\_{n,k} \mathbf{B}\_{k,p}\]