Home

Traitement de données massives: Analyse de sentiments avec les avis d'Amazon

Massive-data-processing (GitHub) • Massive-data-processing (Wiki)
isabelleysseric (GitHub) • isabelleysseric.com (Portfolio) • isabelle-eysseric (LinkedIn)

Telechargement

On peut constater qu'il y a des valeurs manquantes dans le fichier "Amazon_Unlocked_Mobile.csv"[1] dans les colonnes essentielles comme la marque du produit "Brand Name" et celle des commentaires "Reviews" qui nous seront utiles pour les prochaines questions. Il a donc été nécessaire de supprimer les lignes concernées.

J'ai créé un nouveau fichier en vue de la prochaine question. J'ai supprimé les colonnes qui ne nous intéressent pas pour garder seulement celles de "Brand Name" et "Reviews".

Figure: Sortie du Téléchargement du contenu de la base de données.

Traitement des donnees

Marques les plus fréquentes

On constate que la marque "Samsung" se retrouve deux fois dans la liste sous le nom "Samsung" et "samsung". Il est donc nécessaire de fusionner les deux marques. Ce qui donnerait à "Samsung" un total de 68178 occurrences et permet de rajouter la marque "Casio".

Pour éviter ce genre de problème, il est nécessaire de mettre tous les noms de marques, ainsi que les commentaires en minuscules, ce qui est à faire par la suite pour avoir de meilleurs résultats.

Figure: Affichage des 20 marques les plus fréquentes.

Fréquence des mots

De ce que j'ai compris de l'énoncé, il fallait mettre la liste des mots utilisés dans la colonne "Mot" et la correspondance de leur fréquence dans celle de "Frequence". Avec plus de temps, il faudrait trier la liste de mots afin de supprimer au moins les mots vides, la ponctuation et les emoticons pour avoir de meilleurs résultats.

Figure: Calcul de la fréquence des mots avec la fonction Map Reduce.

Exportation des résultats

J'ai inséré la liste des mots et leurs fréquences mais par la suite, il serait nécessaire de garder les plus fréquents ou bien un seul mot, celui qui revient le plus souvent.

Figure: Exportation des résultats dans un fichier CSV

Creation d'une nouvelle base de données

Après manipulation avec les requêtes SQL, je constate qu'il serait plus facile de les mettre sous forme de paires afin de travailler dessus. Avec plus de temps, il faudrait trier la liste de mots afin de supprimer au moins les mots vides, la ponctuation et les emoticons.

Requêtes SQL: Affichage des données

Après manipulation avec les requêtes SQL, je constate qu'il serait plus facile de mettre les mots et leurs fréquences sous forme de paires afin de travailler dessus ou bien de garder seulement le ou les mots les plus fréquents pour chaque marque.

Figure: Requête SQL permettant d’afficher les données de la nouvelle base de données

Requêtes SQL: Affichage de la marque ayant le mot le plus fréquent

Malheureusement, avec les listes de mots et de fréquences, je n'ai pas été capable de sortir une requête convenable.

Figure: Requête SQL permettant d’afficher la marque ayant le mot le plus fréquent.

Refecences

[1] Fichier Amazon "amazon-unlocked-mobile.csv' lors du concour Kaggle d'analyse de sentiments sur les avis d'Amazon.