Skip to content

ivjuniorbr/dio_desafio_big_data_aws

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Digital Innovation One

Código criado para utilização junto a plataforma da Digital Innovation One.

Bootcamp Cognizant Cloud Data Engineer

Repositório de código do Dio Live Coding com AWS EMR e Python, relacionado a apresentação do desafio “Criando seu Ecossistema de Big Data na Nuvem”, sob orientação do instrutor Cassiano Peres.

Aqui contém os passos para a configuração na AWS e execução de análise de dados.


  1. Instruções

    • Acesse S3:

      https://s3.console.aws.amazon.com/s3/

      • Criar estrutura de data lake: dio-live-datalake
      • Criar estrutura de massas:
        • dados
        • saída
        • temp
    • Acesse o EMR:

      https://console.aws.amazon.com/elasticmapreduce/

      • O cluster será criado pelo MrJob e não pelo console
      • Infraestrutura como código
    • Criar chave SSH

    • Obter Id e chave secreta AWS para configurar MrJob

    • Ambiente linux

      • Criar ambiente virtual python: virtualenv --python = python3.6 venv_diolive
      • Acessar com o vs código
    • Instalar vscode no Ubuntu

      • código.
    • Criar algoritmo de análise de palavras

      • dio-live-wordcount-test.py
      • mapa-reduzir-contar: contar
      • Instalar boto3: pip install boto3
      • Instalar mrjob: pip install mrjob
    • Acessar S3

      • Upload de arquivo para o bucket
    • Ambiente virtual python: fonte venv_teste / bin / activate

      • nano ~ / .mrjob.conf
      • python3 dio-live-wordcount-test.py -r emr s3: // {your_s3_bucket_name} /data/SherlockHolmes.txt --output-dir = s3: // {your_s3_bucket_name} / output / logs1 --cloud-tmp-dir = s3: // {your_s3_bucket_name} / temp /

About

Desafio DIO criando seu ecossistema de Big Data na nuvem

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors