Kurssimateriaalia ja esimerkkejä data-analyysin projektikurssilla.
Ohjeet ovat enimmäkseen Ubuntu Linuxille. Useimmat ohjelmistot asennetaan
apt-get-työkalulla.
- csvkit (asennus esim.
sudo apt-get install csvkit) - curl (todennäköisesti on jo mukana Linux-asennuksessa)
Esimerkeissä on käytetty Pythonin versiota 3.10.6. Tarkista oma Python 3-versiosi:
python3 -V
Pythonin versiota 2 ei kannata enää käyttää uusissa projekteissa.
Perustietoa Pythonin virtuaaliympäristöistä löytyy esimerkiksi Real Python -sivuston artikkelista Python Virtual Environments: A Primer.
Tee projektin hakemistoon uusi virtuaaliympäristö nimeltä venv:
python3 -m venv venv
Komento ajaa Python-moduulin nimeltä venv ja luo uuden virtuaaliympäristön.
Aktivoi virtuaaliympäristö:
source venv/bin/activate
Graafisten kuvaajien tekemistä varten pitää asentaa Matplotlib:
pip install matplotlib
Lisää tietoa pip-ohjelman käytöstä löytyy esimerkiksi Real Python -sivuston
artikkelista What is Pip.
Kun olet lopettanut projektin työstämisen, anna komento deactivate. Sen jälkeen
python3-komento ajaa taas järjestelmän oman Python 3 -tulkin. Aktiivinen
virtuaaliympäristö näkyy komentokehotteessa, mutta voit tarkistaa tilanteen
komennolla which python3.
Ajoneuvotiedot ovat Traficomin avointa dataa.
Erottele Traficomin ajoneuvodatasta tarvittavat sarakkeet
komentojonolla esipesu.sh:
bash esipesu.sh
Keräile rekisteröintitiedot vuosilta 2016-2021 Python-ohjelmalla
ev_counts.py. Varmista, että esipesun tuottama tiedosto on
samassa hakemistossa, ja aja sitten ohjelma:
python3 ev_counts.py
Ohjelma pysyy käynnissä kunnes pylväsdiagrammin sisältävä ikkuna suljetaan.
HUOM.! Jos saat ilmoituksen:
UserWarning: Matplotlib is currently using agg, which is a non-GUI backend, so cannot show the figure.
niin ratkaisu on asentaa Tkinter-kirjasto Pythonille:
sudo apt-get install python3-tk
Ennustemallia varten vuosittaiset sähköautojen rekisteröintimäärät
on pilkottu kuukausittaisiksi Python-ohjelmassa ev_counts_monthly.py.
Sähköautojen ensirekisteröintimäärät loppuvuodelle 2022 ja koko
vuodelle 2023 on ennustettu lineaarisen regressiomallin avulla,
käyttäen Scikit-learn-kirjastoa. Tämä versio on tiedostossa
ev_counts_regression.py.
Aktivoi ensin Python-virtuaaliympäristö ja asenna Scikit-learn:
source venv/bin/activate
pip install scikit-learn
Sen jälkeen aja ohjelma:
python3 ev_counts_regression.py
Tuloksia voi verrata esimerkiksi Tilastokeskuksen tiedotteeseen Tammikuussa 2023 ensirekisteröitiin 7 175 uutta henkilöautoa.