Projekt 1 - SQL
-
Stwórz Bazę „Sklep odzieżowy”
-
Utwórz tabelę „Producenci” z kolumnami:
id producenta nazwa producenta adres producenta nip producenta data podpisania umowy z producentem Do każdej kolumny ustaw odpowiedni „constraint”
- Utwórz tabelę „Produkty” z kolumnami:
id produktu id producenta nazwa produktu opis produktu cena netto zakupu cena brutto zakupu cena netto sprzedaży cena brutto sprzedaży procent VAT sprzedaży Do każdej kolumny ustaw odpowiedni „constraint”
- Utwórz tabelę „Zamówienia” z kolumnami:
id zamówienia id klienta id produktu Data zamówienia Do każdej kolumny ustaw odpowiedni „constraint”
- Utwórz tabelę „Klienci” z kolumnami:
id klienta id zamówienia imię nazwisko adres Do każdej kolumny ustaw odpowiedni „constraint”
- Połącz tabele ze sobą za pomocą kluczy obcych:
Produkty – Producenci Zamówienia – Produkty Zamówienia - Klienci
- Każdą tabelę uzupełnij danymi wg:
Tabela „Producenci” – 4 pozycje Tabela „Produkty” – 20 pozycji Tabela „Zamówienia” – 10 pozycji Tabela „Klienci” – 10 pozycji 8. Wyświetl wszystkie produkty z wszystkimi danymi od producenta który znajduje się na pozycji 1 w tabeli „Producenci”
-
Posortuj te produkty alfabetycznie po nazwie
-
Wylicz średnią cenę za produktu od producenta z pozycji 1
-
Wyświetl dwie grupy produktów tego producenta:
Połowa najtańszych to grupa: „Tanie” Pozostałe to grupa: „Drogie” 12. Wyświetl produkty zamówione, wyświetlając tylko ich nazwę
-
Wyświetl wszystkie produkty zamówione – ograniczając wyświetlanie do 5 pozycji
-
Policz łączną wartość wszystkich zamówień
-
Wyświetl wszystkie zamówienia wraz z nazwą produktu sortując je wg daty od najstarszego do najnowszego
-
Sprawdź czy w tabeli produkty masz uzupełnione wszystkie dane – wyświetl pozycje dla których brakuje danych
-
Wyświetl produkt najczęściej sprzedawany wraz z jego ceną
-
Znajdź dzień w którym najwięcej zostało złożonych zamówień
Projekt 2 - ML Projekt końcowy
Lending Club to firma pożyczkowa typu peer-to-peer, która łączy pożyczkobiorców z inwestorami za pośrednictwem platformy internetowej. Obsługuje osoby, które potrzebują pożyczek osobistych w wysokości od 1000 do 40 000 USD. Pożyczkobiorcy otrzymują pełną kwotę udzielonej pożyczki pomniejszoną o opłatę początkową, która jest uiszczana firmie. Inwestorzy kupują weksle zabezpieczone osobistymi pożyczkami i płacą Lending Club opłatę za usługę. Firma Lending Club udostępnia dane o wszystkich pożyczkach udzielonych za pośrednictwem swojej platformy w określonych okresach. Na potrzeby tego projektu zostały użyte dane dotyczące pożyczek udzielonych za pośrednictwem Lending Club na przestrzeni lat 2007 -2011. Każda pożyczka jest opatrzona informacją o tym, czy ostatecznie została spłacona (Fully Paid lub Charged off w kolumnie loan_status). Twoim zadaniem jest zbudowanie modelu klasyfikacyjnego, który na podstawie tych danych będzie przewidywał z określoną dokładnością, czy potencjalny pożyczkobiorca spłaci swój dług z tytułu zaciągniętej pozyczki. Do zbioru danych dołączony jest plik z opisem wszystkich zmiennych oraz plik „FICO Score ranged.pdf”, w którym dokładnie opisano znaczenie jednej z kolumn.
Poniżej zaprezentowane są poszczególne etapy analizy, których wykonanie jest konieczne do zaliczenia projektu oraz ich punktacja:
-
Obróbka danych (Data Processing) – jako doświadczony Data Scientist zapewne znasz poszczególne kroki, które należy wykonać na tym etapie, więc nie będziemy ich tutaj wyszczególniać.
-
EDA, czyli obszerna eksploracja danych Opisz wnioski płynące z każdego wykresu, swoje hipotezy poprzyj testami statystycznymi takimi jak np. t-test lub Chi-square. Dodatkowo odpowiedz na poniższe pytania:
-
W jaki sposób wynik FICO wiąże się z prawdopodobieństwem spłacenia pożyczki przez pożyczkobiorcę?
-
W jaki sposób wiek kredytowy wiąże się z prawdopodobieństwem niewykonania zobowiązania i czy ryzyko to jest niezależne lub związane z wynikiem FICO
-
W jaki sposób status kredytu hipotecznego na dom wiąże się z prawdopodobieństwem niewypłacalności?
-
W jaki sposób roczny dochód wiąże się z prawdopodobieństwem niewykonania zobowiązania?
-
W jaki sposób historia zatrudnienia wiąże się z prawdopodobieństwem niewykonania zobowiązania?
-
Jak wielkość żądanej pożyczki jest powiązana z prawdopodobieństwem niewykonania zobowiązania?
-
Feature Engineering – utwórz nowe zmienne
-
Modelowanie
-
Wykonaj klasteryzację danych (wypróbuj do tego celu kilka metod, min. 3) i sprawdź, czy występują jakieś segmenty pożyczkobiorców, wykorzystaj odpowiednie metody do określenia optymalnej liczby klastrów
-
Wytrenuj 5 różnych modeli, wykorzystując do każdego inny algorytm, a następnie porównaj ich działanie, za metrykę oceny jakości modelu przyjmij AUROC score.
-
Sprawdź działanie wcześniej użytych metod na skompresowanych danych za pomocą PCA, porównaj wyniki (AUROC score) z modelami wytrenowanymi w poprzednim podpunkcie.
-
Zbuduj finalny model, pamiętaj o doborze istotnych zmiennych, kroswalidacji oraz dostrojeniu parametrów modelu, pomyśl również o zbalansowaniu klas.