-
Notifications
You must be signed in to change notification settings - Fork 0
Home
Massive-data-processing (GitHub)
• Massive-data-processing (Wiki)
isabelleysseric (GitHub)
• isabelleysseric.com (Portfolio)
• isabelle-eysseric (LinkedIn)
On peut constater qu'il y a des valeurs manquantes dans le fichier "Amazon_Unlocked_Mobile.csv"[1] dans les colonnes essentielles comme la marque du produit "Brand Name" et celle des commentaires "Reviews" qui nous seront utiles pour les prochaines questions. Il a donc été nécessaire de supprimer les lignes concernées.
J'ai créé un nouveau fichier en vue de la prochaine question. J'ai supprimé les colonnes qui ne nous intéressent pas pour garder seulement celles de "Brand Name" et "Reviews".


Figure: Sortie du Téléchargement du contenu de la base de données.
On constate que la marque "Samsung" se retrouve deux fois dans la liste sous le nom "Samsung" et "samsung". Il est donc nécessaire de fusionner les deux marques. Ce qui donnerait à "Samsung" un total de 68178 occurrences et permet de rajouter la marque "Casio".
Pour éviter ce genre de problème, il est nécessaire de mettre tous les noms de marques, ainsi que les commentaires en minuscules, ce qui est à faire par la suite pour avoir de meilleurs résultats.

Figure: Affichage des 20 marques les plus fréquentes.
De ce que j'ai compris de l'énoncé, il fallait mettre la liste des mots utilisés dans la colonne "Mot" et la correspondance de leur fréquence dans celle de "Frequence". Avec plus de temps, il faudrait trier la liste de mots afin de supprimer au moins les mots vides, la ponctuation et les emoticons pour avoir de meilleurs résultats.


Figure: Calcul de la fréquence des mots avec la fonction Map Reduce.
J'ai inséré la liste des mots et leurs fréquences mais par la suite, il serait nécessaire de garder les plus fréquents ou bien un seul mot, celui qui revient le plus souvent.

Figure: Exportation des résultats dans un fichier CSV
Après manipulation avec les requêtes SQL, je constate qu'il serait plus facile de les mettre sous forme de paires afin de travailler dessus. Avec plus de temps, il faudrait trier la liste de mots afin de supprimer au moins les mots vides, la ponctuation et les emoticons.
Après manipulation avec les requêtes SQL, je constate qu'il serait plus facile de mettre les mots et leurs fréquences sous forme de paires afin de travailler dessus ou bien de garder seulement le ou les mots les plus fréquents pour chaque marque.

Figure: Requête SQL permettant d’afficher les données de la nouvelle base de données
Malheureusement, avec les listes de mots et de fréquences, je n'ai pas été capable de sortir une requête convenable.

Figure: Requête SQL permettant d’afficher la marque ayant le mot le plus fréquent.
[1] Fichier Amazon "amazon-unlocked-mobile.csv' lors du concour Kaggle d'analyse de sentiments sur les avis d'Amazon.
Massive-data-processing (GitHub)
• Massive-data-processing (Wiki)
isabelleysseric (GitHub)
• isabelleysseric.com (Portfolio)
• isabelle-eysseric (LinkedIn)