Data36 – Data Science Hírlevél

Nem a mesterséges intelligencia, amire szükségünk van…

Mester Tomi — Wed, 02 Oct 2024 14:56:22 +0000

“Nem a mesterséges intelligencia, amire szükségünk van, hanem a mesterséges intelligencia, amit megérdemlünk.”

Data36 Data Science Hírlevél

Belsős anyagok, útmutatók, karriertippek, új technológiák adattudományhoz — magyar nyelven.

Minden csütörtökön, közvetlen az e-mail fiókodba! Csatlakozz 1000+ adatos szakemberhez!

Üdv,
Tomi

Statisztikára Edzünk…

Mester Tomi — Mon, 30 Sep 2024 14:57:12 +0000

A kondiban is ott hagyja az ujjlenyomatát a statisztika.

a kép forrása: Reddit

Két erős koncepció is megjelenik — az egyik adja magát, a másikat kicsit keresni kell.

A posztban nem spoiler-ezek… De Linkedin-en jöttek szép megfejtések: ITT.

Data36 Data Science Hírlevél

Belsős anyagok, útmutatók, karriertippek, új technológiák adattudományhoz — magyar nyelven.

Minden csütörtökön, közvetlen az e-mail fiókodba! Csatlakozz 1000+ adatos szakemberhez!

Üdv,
Tomi

Adatforrások. Három ingyenes adatgyűjtési módszer Data Science Projektekhez

Mester Tomi — Fri, 27 Sep 2024 11:34:09 +0000

„Honnan szerezzek adatot?”

Teljesen releváns kérdés, ha pl.:

egy data science hobbi- vagy side-projektet építenél
VAGY
céges kutatási projektben bővítenéd a már meglevő adataidat külső forrásokkal
VAGY
valami hasonló…

Úgyhogy ebben a posztban röviden, sallangmentesen összeszedek neked néhány lehetőséget, ami jó indulás lehet, aztán még a jövőben bővítem ezt a listát és csinálok belőle valami könyvtárat is.

Három populáris módszert mutatok.

Van több is amúgy, de a három legtöbbet használt:

publikus adathalmazok letöltése
web-scraping
API-kon keresztüli adatlekérés

Nézzük őket egyesével.

(1) Publikus adathalmazok letöltése

Van pár honlap, ahol az oldalak készítői egyszerűen összegyűjtenek, feltöltenek és kereshetővé tesznek rengeteg dataset-et. Ezek változatos minőségűek, de alapos kereséssel lehet kincseket találni. Az egyetlen hátránya, hogy ezek az adathalmazok általában nem „élőek”, azaz nem frissülnek… Ergo csak egy múltbeli fix periódust tudunk általuk elemezni. De gyakran ez elég — főleg ha hobbiprojektről van szó.

Íme a lista:

Google Dataset Search. Egy kereső motor. Olyan mint a Google, csak dataset-ekre: https://datasetsearch.research.google.com/
Kaggle.com. Ezen az oldalon alapból data science versenyek vannak, de az ehhez tartozó adathalmazok sokszor elérhetőek a nagyközönség számára is: https://www.kaggle.com/datasets
Awesome public datasets. Nomen est omen alapon, egy király lista publikus adathalmazokról. https://github.com/awesomedata/awesome-public-datasets
DataHub. Olyan, mint az előző, csak kicsit rövidebb. https://datahub.io/collections
Data.gov. Az amerikai kormány által közzé tett adatok. Szociológiai projektekre kiváló (nyilván erős USA fókusszal.) https://www.data.gov/
NYC Open Data. Ugyanaz, mint az előző, csak kifejezetten New York-ra. https://opendata.cityofnewyork.us/

(2) Web-scraping

A web-scraping gyakorlatilag publikus weboldalak tartalmának a legyűjtése.

Olyan, mintha felmennél egy weblapra és kézzel kigyűjtenéd a rajta levő adatokat (pl. az IMDB-ről hogy melyik film hány csillagot kapott). De az ugye repetitív, unalmas és sok idő… Úgyhogy nem te csinálod, hanem helyetted a Python egyik web-scraping-es csomagja. (Én a beautifulsoup nevűt használom legtöbbször.)

Csináltam egy 20 perces Python-os bemutatót, hogy hogyan is működik ez a dolog.

Angolul van és azt nézzük meg benne, hogy melyik a legnépszerűbb Marvel-es szuperhős — ehhez pedig a Wikipédia-t scrape-elem pár egyszerű lépésben:

* Legális-e a web scraping? Természetesen, ahol az oldal tulajdonos kifejezetten tiltja scrape-elést, ott nem szabad scrape-elni. Ahol nincs explicit tiltva, ott kérdéses a dolog. Ez most nem jogi tanács és konzultálj a saját ügyvédeddel, de azért én is utánanéztem a dolognak… Változatos források változatos dolgokat mondanak róla. A legjobb kapaszkodó, amit találtam és általában használható, az a „fair use” elve. A „fair use” egyébként egy nehezebben definiálható joig kategória, de általában azt jelenti, hogy ha új és egyedi értéket hozol létre úgy, hogy közben nem sérted az adat eredeti tulajdonosának az érdekeit, akkor lehet legális a web scraping. Még egyszer: ez nem jogi tanács.

(3) API-kon keresztüli adatlekérés

Egy csomó online alkalmazás elérhetővé teszi az adatainak egy részét, amiket API-kapcsolatokon keresztül lehet lekérni.

Példák:

Spotify API: zenék és előadók adatait tudod lekérni (pl. lejátszásszám, népszerűség, etc.)
Coinbase API: kriptós adatokat tudsz lekérni (pl. aktuális és múltbeli árfolyamok)
Weather API: időjárási adatokat tudsz lekérni (pl. aktuális és múltbeli hőmérséklet, csapadék, etc. lokáció alapján)
…

Ezeken az API kapcsolatokon maguk az alkalmazások tulajdonosai tesznek elérhetővé adatokat, strukturált formátumban. Tehát ez biztos, hogy legális, jó minőségű és élő adat.

Megjegyzés: strukturált alatt JSON formátumot érts, ami lényegében konvertálható egy Python dictionary-vé. Ez elsőre ijesztőnek tűnhet, de ha elvégezted pl. a Junior Data Scientist Akadémiát, akkor tuti nem okoz gondot, hogy kinyerd belőle a számodra megfelelő adatokat. Valami ilyesmit képzelj el:

Hátrány: Ugye ehhez is Python kódot kell írni — bár ez amúgy önmagában még nem hátrány. Inkább az, hogy a dokumentációk általában kicsit „fejlesztőknek-fejlesztők-által” minőségűek… Hogy mondjam úgy, hogy ne sértsek meg senkit? … … Nem feltétlen a felhasználóbarát gondolkodásmód az erőssége ezeknek az útmutatóknak.

Nade, ehhez is van egy bemutató videóm, ahol a Coinbase API-val és a Weather API-val demózom a koncepciót:

Kontextus: ez a videó a Data Science Klub belsős versenyéhez készült, ezért lesz benne pár ilyen utalás.

Van még ennél több is…

Amúgy ez a külsős adatforrásból adatgyűjtés is egy végtelen téma, végtelen megoldási lehetőséggel.

A mai posztban arra akartam rávilágítani, hogy sok-sok-sok ingyenes adathalmaz érhető el manapság, úgyhogy ne az adathiány legyen, ami gátat szab a projektednek!

(Valamikor tervezek írni majd kifejezetten a cégen belüli „belsős” adatgyűjtésről is… csak azt nem tudom pontosan, hogy hányan vannak itt a listán, akiket érdekelhet mint téma. Ha te köztük vagy és dobsz egy email-t, megköszönöm.)

Data36 Data Science Hírlevél

Belsős anyagok, útmutatók, karriertippek, új technológiák adattudományhoz — magyar nyelven.

Minden csütörtökön, közvetlen az e-mail fiókodba! Csatlakozz 1000+ adatos szakemberhez!

Köszi és üdv,
Mester Tomi

10x-szelem a bevételem WhiskyReturns.com-ból (mondjuk nem lesz nehéz…)

Mester Tomi — Thu, 26 Sep 2024 21:07:45 +0000

Nemrég elhatároztam, hogy tartok egy mini-hack-week-et és megtízszerezem az egyik adatos hobbiprojektemből érkező bevételemet (~20-30 óra munkával).

Mondjuk nem lesz nehéz, mert a havi $10-et kéne feltornázni havi $100-ra.

A posztban leírom, hogy mi a projekt, mik a jelenlegi számok és mi a pontos terv, hogy megugorjam a kihívást… aztán pár hét múlva beszámolok az eredményekről is.

A projekt: WhiskyReturns.com

Bár több helyen is beszéltem már róla, nem elhanyagolható a valószínűsége, hogy te még nem ismered — így gyorsan összefoglalom, hogy mi a projekt maga.

Röviden-tömören:

A whiskyreturns.com egy honlap, ami whisky befektetésekről készít automatikus elemzéseket.

Kicsit hosszabban:

adatokat gyűjtök automatizált web scraping-gel a whisky másodpiacról
ezeket egy automatizált adattisztító és elemző script segítségével érthető formába rendezem és cikkek formájában publikálom (egy adott típusú whisky = egy cikk)
a cikkeket havonta egyszer frissítem az új adatpontokkal (az adott havi új tranzakciók a másodpiacon)

Tech-stack: sok-sok Python, kis JavaScript, kis bash.

Valami ilyesmit lát a felhasználó (ennél persze jóval hosszabb egy cikk, de ezek a kulcsadatok) egy-egy whisky-ről:

Ezentúl van egy ingyenes hírlevél-feliratkozásra buzdító kis szöveg minden cikk alján… Aki feliratakozik a hírlevélre, annak automatikusan elküldöm az adatokból generált toplistákat (legjobb ROI, legdrágább whisky, legtöbbet kereskedett whisky, stb.).

És végül, de nem utolsó sorban a feliratkozás után nem sokkal érkezik még egy e-mail, hogy vegyék meg az e-book-omat is, ami „Executive Summary of Whisky Investing” névre hallgat és $10-ba kerül. (Amúgy nem az én tudásom van benne, sok-sok éves tapasztalattal rendelkező whisky-befektetés-szakértők segítettek összerakni az anyagot, szóval szerintem abszolút kiemelkedő az ár-érték aránya a cuccnak.)

A funnel és a számok

A jelenlegi funnel-em így néz ki — 2024-01-01 és 2024-01-19 közötti időszak alapján:

Tehát:

~6300 új látogató jött az oldalra (szinte csak és kizárólag SEO-ból)
~430 új hírlevél-feliratkozó volt (~7% látogató -» feliratkozó konverzió)
36 feliratkozó kattintott a linkre, hogy megveszi az e-book-ot
8-an vásároltak is (~1.8% feliratkozó -» vásárló konverzió)

Tehát $80 bevételem lett egy $10-os termék eladásából. (Amúgy imádom a nemzetköziségét: 2 vásárló Angliából, 2 az USA-ból, 2 Ausztráliából, 1 Hong Kongból, 1 Kínából.)

A cél tehát még egyszer: kb. egy hétnyi munka befektetéssel meg-10-szerezni a bevételt.

Ami érdekes itt adatos szempontból az pl. az, hogy hogyan olvasunk egy ilyen funnel-t és a benne levő adatokat. Hogyan döntjük el, hogy mi a jó és mi a rossz?

Önmagában pl. azt mondani, hogy a 6300 látogatóból –» 8 vásárló (0.12%) kevés, szerintem hiba lenne. Mihez képest kevés ugye? Egy korábbi teljesítményhez képest? Egy másik projektben megismert benchmark-hoz képest? Az elvárásainkhoz képest? Az ügyfélszerzési-költséghez képest? (Ez utóbbi nekem mondjuk kvázi 0.)

Mivel nekem nagyon kevés viszonyítási alapom van egyelőre, kénytelen vagyok erre a két dologra hagyatkozni:

általános iparági/piaci benchmark-ok
kontextus — azaz, hogy hol van még egyszerű lehetőség a fejlesztésre

Megjegyzés: ahogy a bevételi számokból látszik, ez a projekt tényleg inkább csak hobbi projekt, szóval egy 3. pont, ami alapján belőttem a fejlesztési terveket, hogy olyan dolgokat csináljak, amelyek által fejlődök, gyakorlok és tanulok — főleg adatos szempontból.

A fejlesztési tervek

A fentiek alapján ezeket a célokat tűztem ki magamnak:

#1 Növelni a weblap-látogatók számát.

Vicces, de pont ez tűnik számomra a legegyszerűbb fejlesztésnek. Jelenleg 323 különböző whisky van publikálva a honlapon (ez 323 cikket jelent.) Az adatbázisom alapján ez lehetne 3000 is. Csak hát melós olyan script-et írni, ami automatikusan kategorizálja a whisky-jeimet név alapján.

Viszont a múltbeli adatok alapján azt fixen tudom, hogy minél több cikket publikálok, annál nagyobb a látogatottság a honlapon. Ez logikus is: minél több a cikk, annál nagyobb eséllyel keres rá valaki Google-ben egy olyan cikkre, amiről pont csak nekem van elemzésem.

Szóval, ha nem is publikálom mind a 3.000 lehetséges cikket, Pareto-elv alapján megnéztem, hogy mi lehet az a ~100 új whisky (a 100 az egyáltalán nem sok), ami a legnagyobb látogatószám növekedést hozhatja.

Arra jutottam, hogy a Macallan márka a legjobb jelölt, mert úgy tűnik, hogy ennek a márkának a termékei a legtöbbet kereskedett whisky-k… Szóval nagy eséllyel erről keresnek infót a neten az emberek.

…

Nem bírtam magammal és ezt a fejlesztést amúgy már el is kezdtem a héten — kb 6 órányi Python-varázslat után meg is jelent a 100 új cikk a honlapon, szóval most várom a SEO-robotistenségeket, hogy beindexeljék az új anyagokat. (Jövő héten, ha minden jól megy, még publikálom a maradék ~50 Macallan üveget, amiről elégséges adat van és ki is van pipálva ez a pont.)

#2 Növelni a feliratkozó–»vásárló konverziót.

Számomra ez az 1.8% a legfájdalmasabb arány. Pedig annyira alapból nem hangzik rosszul. De szerintem simán feltolható lenne 5-6%-ra. (De láttam már 10%-os konverziót is ilyen olcsó, kvázi impulzusvásárlás jellegű welcome terméknél.) Egyébként nem csoda, hogy ilyen alacsony az arány — a feliratkozás után csupán egyetlen egy (viszonylag hosszú) sales email megy ki.

Ez az egyetlen email szerintem amúgy elég jó lett — még Pass Balázs workshop-ján írtam tavaly decemberben és ő is leokézta, sőt, kifejezetten megdicsért, hogy király e-mail-t raktam össze. Habár az ő sablonja/útmutatása/workshop-ja alapján készült, szóval a dicséret végülis az övé.

Viszont mindenképpen kéne utána még 2-3-4 followup email azoknak, akik nem vásároltak. De még az is lehet, hogy az eredeti levelet is kicsit rövidebbre veszem majd és esetleg 2-3 részletben küldöm ki — mindegyik végén az ajánlattal.

#3 Növelni a termék árát (és értékét).

A másik problémám, hogy kicsit olcsó ez az e-könyv $10-ért.

Persze minden relatív, de Amerikában és Nyugat-Európában $49-ig még bőven az impulzusvásárlás kategóriába esik az emberek online költése. (Az impulzusvásárlás lélektani határa felé nem szeretnék menni, mert az már komolyabb marketinget és brand-építést igényelne, amit egy hobbi projektnél most túlzásnak tartanék.)

Viszont egy szimpla e-book-ot ennyire „hidegben” eladni nehéz lenne $49-ért. Ezért arra gondoltam, hogy az e-book-ból csinálok egy hangoskönyvet, annak nagyobb a „perceived value”-ja („feltételezett értéknek” fordítják, de szerintem az nem túl pontos).

No persze nem én adnám a hangomat hozzá, hanem Daniel az Elevenlabs-től, aki akkora arc, hogy mindössze $11-ért felolvassa nekem a ~3 órányi anyagot, stúdió minőségben, jól érthető brit akcentussal.

Már mintát is küldött ingyen, szerintem nem lett rossz: ITT.

Mondjuk mivel igazából egy AI-ról — pontosabban egy AI-hangról — van szó, ezért ezért az árért ezt a minőséget minimum elvárom tőle. ;-D

De ha már hangoskönyv, akkor szinte semmiből nem áll egy másik AI tool-lal egy prezit is csinálni mögé és boom, kész a videókurzus.

(Még nem találtam meg a tökéletes prezi-készítő AI eszközt, ha van tipped és elküldöd válaszba, megköszönöm!)

Persze lehet azon elmélkedni, hogy ugyanazt a tartalmat illik-e eladni 5-ször annyiért, csak azért, mert nem e-könyv, hanem egy AI-generált hang+vizuál… Dehát egyrészt ez a whiskyreturns pont egy ilyen homokozó számomra, ahol ezeket ki lehet próbálni büntetlenül — másrészt meg én látom a hozzáadott értéket abban, hogy van kép és hang, függetlenül attól, hogy ember olvassa-e fel vagy gép.

Mi a matek?

A levél elején azt írtam, hogy 10-szerezni szeretném a bevételt.

Szerintem ez reális is.

Az optimista becslésem szerint, ezek a szorzók az egyes alprojektekből:

weblap látogatók száma: 3-szorosára nő
feliratkozó–»vásárló konverzió: 3-szorosára nő
termék ára: 3-szorosára nő ($49 helyett lesz egy $29-es early bird akció)

Ez összesen 3*3*3 = 27-szeres javulás lenne. Na de legyünk reálisak és diszkontáljuk ezt egy picit. A 10-szeres szorzó ki is jön.

Szóval jövő héten fejest ugrok ezekbe a fejlesztésekbe.

A legizgibb nekem bevallom az #1-es és a #3-as pont lesz szakmai szempontból, de azért a #2-est sem fogom elhanyagolni.

Ahhoz, hogy szignifikáns eredmények (várhatóan javulás ) jöjjenek be, még kelleni fog jó pár hét. De amint van valami tapasztalat vagy megosztani való, itt beszámolok.

Ez volt a mai data science poszt, inkább most bizniszesebb lett, de ugyebár:

data science = kódolás x statisztika x biznisz

Data36 Data Science Hírlevél

Belsős anyagok, útmutatók, karriertippek, új technológiák adattudományhoz — magyar nyelven.

Minden csütörtökön, közvetlen az e-mail fiókodba! Csatlakozz 1000+ adatos szakemberhez!

Üdv,
Tomi

Az AI-generált kép az új stock fotó?

Mester Tomi — Wed, 25 Sep 2024 14:41:56 +0000

Lehet csak én vagyok vele így, de kezd feltűnővé válni számomra egy-egy poszt alatt, landing oldalon, FB reklámban, stb. amikor AI-jal csináltatta a szerző az illusztrációt vagy a kreatívot.

És kb ugyanazt az érzést kelti, mint annó a stock fotós megoldások…

Elsőre profinak hisszük, hogy stúdió minőségű fotók vannak a honlapunkon – aztán, amikor másnál jelennek meg, akkor rájövünk, hogy inkább a „sablonos”, a „közhelyes” vagy a „középszerű” érzéseket társítjuk hozzájuk.

Igazából az AI-generált képeknél is annyira alacsony a belépési szint a tömeges képgeneráláshoz, hogy a kezdetben izgi stílus mára már jól felismerhető klisévé kezd válni.

Megjegyzés: Ennek persze az is az oka, hogy a többség lustán promptol és nem ad meg semmilyen egyedi stílusbeállítást, csak azt, hogy mit szeretne látni a képen.

Mindenesetre annak ellenére, hogy 2023 elején azt mondták, hogy az AI kinyírja majd a művészetet és főleg a dizájnereket, én úgy látom, hogy most, aki tényleg egyedi dizájnt tud készíteni (és nem csak sablonokat használ), az nagyon ki tud emelkedni a középszerű AI-képek tengeréből.

Data36 Data Science Hírlevél

Belsős anyagok, útmutatók, karriertippek, új technológiák adattudományhoz — magyar nyelven.

Minden csütörtökön, közvetlen az e-mail fiókodba! Csatlakozz 1000+ adatos szakemberhez!

Köszi és üdv,
Mester Tomi

Phyton kód: szép legyen vagy kész legyen?

Mester Tomi — Mon, 23 Sep 2024 14:42:51 +0000

Nem az a lényeg, hogy milyen szép kódot írsz, hanem az, hogy milyen üzleti értéket teremtesz vele.

Sokan megköveznének ezért a kijelentésért… de azért a data science-ben is igaz, hogy a kész jobb, mint a tökéletes.

Túl sok embert látok, aki órákig reszel egy-egy Python-os/SQL-es kódrészletet, csak hogy az szebb és „hatékonyabb” legyen. (Hatékony == 0.2 másodperc helyett, 0.1 másodperc alatt fut le. ) Pedig a feladatot már rég ellátja a script.

A képen egy 2016-os kódom látható, ami minden szempontból egy nagyon rosszul megírt Python kód:

tele van bután „hard-code”-olt megoldásokkal
tele van ismétlődésekkel
nehezen javítható
alul kommentelt

…nem is vagyok rá túl büszke. Dehát fiatal voltam és kellett az üzleti eredmény. (Azóta újra írtam az egész kódot nulláról.)

Egyetlen fontos dolgot azért kipipált már a megírás pillanatában is: hibátlanul elvégezte a munkát, amit csinálnia kellett.

NYILVÁN persze jobb, ha szép, olvasható, újrahasználható és hatékony a Python-kód, de üzletileg mindig az a fontosabb, hogy kész legyen (kész legyen *időre*). Ha ez megvan, akkor később még úgyis lehet javítani rajta. (Vagy leginkább megkérni a ChatGPT-t, hogy csinálja újra szebbre és jobbra.)

*természetesen a fenti gondolatok első sorban data science-re és adatelemzésre vonatkoznak — nem data engineering-re vagy szoftverfejlesztésre

Data36 Data Science Hírlevél

Belsős anyagok, útmutatók, karriertippek, új technológiák adattudományhoz — magyar nyelven.

Minden csütörtökön, közvetlen az e-mail fiókodba! Csatlakozz 1000+ adatos szakemberhez!

Köszi és üdv,
Mester Tomi

6 Tipp A Hatékony Szokásépítéshez

Mester Tomi — Fri, 20 Sep 2024 11:25:54 +0000

Az elmúlt 2 évben elkezdtem teljesen átalakítani a szokásaimat és rendszereket a személyes életemben. (A képen az edzésnaplóm. Semmi extra, de nekem rengeteg munkám volt benne, hogy ide eljussak!)

Néhány új (jó) szokásom az elmúlt két évből:

rendszeres sport (heti ~3)
egészséges táplálkozás
rendszeres önfejlesztés data science témában
data science hírlevél írás (minden csütörtökön –» feliratkozáshoz link a cikk alján)
…

Az, hogy ezekből szokások épülnek, javarészt az *Atomic Habits* c. könyvnek köszönhetem.

Sokszor olvastam és sok mindent teszteltem élesben belőle.

Itt van a könyvből a TOP 6 gondolat, ami nálam a legjobban működött.

1⃣ A RENDSZEREK A FONTOSAK, NEM A CÉLOK.

A célok elérésénél fontosabb, hogy fenntartható rendszereket tudjak építeni – amik aztán „automatikusan” segítenek elérni a célokat.

Pl. edzés: nem arra a célra fókuszálok, hogy 100 kg-mal tudjak fekvenyomni hanem arra rendszerre, aminek segítségével hetente 3-szor eljutok a konditerembe

2⃣ NEM AKARATERŐ KELL, HANEM MEGFELELŐ KÖRNYEZET.

Ha az, amit látok és érzékelek megkérdőjelezhetetlenné teszi azt, hogy elindítsam az adott szokást, akkor egy nagy akadályt kiszedek magam elől.

Pl. önfejlesztés adatos témában: Már hónapokkal előre be van írva a naptáramba, hogy az adott hónapban mikor milyen tréningre, videókurzusra vagy konferenciára akarok időt szentelni.

3⃣ 2-PERCES SZABÁLY

Néha előfordul, hogy egy kicsit kisebb a lelkesedésem egy adott napi rutinnal kapcsolatban. Van erre egy trükk.

Ha nincs kedvem edzeni, már otthon átveszem az edzőruhámat. Így egy apró, erőfeszítés-mentes lépéssel elindítom a folyamatot. Fura az emberi agy, de nálam ez már beindítja azt az automatizmust, ami által végig csinálom az amúgy ~90 perces edzésprogramot.

4⃣ MÉRÉS

Az előző pontban elkövetett trükk működik nagyban is.

Amikor látom a lenti a naptár képét, arra gondolok, hogy eddig működött a rendszerem és fejlődtem. Amikor pedig kimarad egy-egy edzés, akkor arra, hogy porszem került a gépezetbe.Ha nem térek vissza, egy idő után elkezdek stagnálni vagy visszaesni és minden eddigi munka kárba vész majd.

Megjegyzés: Ez az adatos témában való önfejlesztésben kifejezetten releváns! Gyorsan fejlődik ez a piac és sok újdonság van. Ha az ember nem kötelezi el magát a rendszeres önfejlesztés mellett, akkor óhatatlanul is lemarad a legjobb lehetőségekről és a legizgalmasabb adatos projektekről.

5⃣ „EGY KIHAGYÁS CSAK EGY HIBA. KÉT KIHAGYÁS EGY ÚJ SZOKÁS KEZDETE.”

Hiszen az agyunk nagyon gyorsan alkalmazkodik az új helyzetekhez és átáll arra az automatizmusra, hogy mostantól az a normális, hogy az adott szokás nincs az életünkben.

6⃣ TÁRSAK AZ ÚTON.

Iszonyatosan sokat segít, ha van a napi rutinunkban egy szociális réteg is. Pl. data science tanulásban: egy mastermind-kör vagy egy tanulócsoport.

Data36 Data Science Hírlevél

Belsős anyagok, útmutatók, karriertippek, új technológiák adattudományhoz — magyar nyelven.

Minden csütörtökön, közvetlen az e-mail fiókodba! Csatlakozz 1000+ adatos szakemberhez!

Köszi és üdv,
Mester Tomi

ChatGPT kódoláshoz: Segédeszköz vagy mankó?

Mester Tomi — Wed, 18 Sep 2024 11:21:42 +0000

Nem-népszerű véleményem:
Ha csak ChatGPT-vel tudsz kódolni, az kb. olyan, mintha csak szótárral tudnál angol nyelvű könyvet olvasni.

Imádom a ChatGPT-t… Akármilyen projekten dolgozom, sokszorozza a kódolói teljesítményemet. Ismerek cégeket, ahol kimondottan kötelező használni fejlesztői munkához, annyira sokat számít gyorsaságban.

DE… Ne feledjük, hogy minden AI-eszköz egy multiplikátora a jelenlegi tudásunknak.

Kb. ugyanaz, mint a Kindle-en a beépített szótár az angol könyvekhez. Zseniális funkció, nekem nagyon sokat segít. Imádom, hogy egy koppintással előhívható és instant átlendít egy elakadáson.

Viszont egyáltalán nem mindegy, hogy minden második szót kell-e szótáraznom vagy elég csak néhány oldalanként segítséget kérnem.

Egyszerűen kell egy alap szókincs, hogy gördülékennyé és élvezetessé váljon az olvasás. (Arról nem is beszélve, hogy ha nem ismerem az alapvető angol szavakat, akkor nem értem pl. a Kindle-s egynyelvű szótár magyarázatait sem.)

Ugyanez a helyzet a kódolásban.

Magabiztosan ismerni kell az alapokat, hogy az AI igazi hatékonyságnövelő-bombává váljon az oldalunkon.

Ezért (is) kell tudni 2024-ben data science-hez AI-segítség nélkül is:

az alapvető lekéréseket SQL-ben
az alapfüggvényeket, a for loop-okat és az if stamentek-et Python-ban,
a legfontosabb megoldások szintaktikáját a különböző data science-es Python csomagokban (pl. pandas, numpy, sklearn)
és még jó néhány dolgot…

A ChatGPT megsokszorozza a kódolói tudásunkat és hatékonyságunkat. De 0-szor X, az továbbra is 0.

Data36 Data Science Hírlevél

Belsős anyagok, útmutatók, karriertippek, új technológiák adattudományhoz — magyar nyelven.

Minden csütörtökön, közvetlen az e-mail fiókodba! Csatlakozz 1000+ adatos szakemberhez!

Üdv,
Mester Tomi

Adattisztítás feladvány

Mester Tomi — Wed, 28 Aug 2024 15:15:59 +0000

Adattisztítás feladvány.

Az adathalmazunkban adott egy whisky neve. Mi az az adattisztítási módszer, amivel megtudhatjuk ez alapján a whisky márkáját is? Elsőre egyszerűnek tűnik, de aztán jönnek a különleges esetek…

Az első „heurisztika”, ami nem működik: legyen mindig a whisky nevének az első szava a márkanév. Egyértelmű miért nem működik: vannak két szavas márkanevek is. ¯\_(ツ)_/¯
A második „heurisztika”, ami nem működik: minden „__ Year Old” mintázat előtti karakterlánc legyen a márkanév. Sajnos ez sem működik — lásd 5. sor: Glenfiddich példa.
….

Kb. két éve futottam bele ebbe a kérdésbe és bevallom, a megoldáson én sok órát gondolkoztam, mire meglett. Pedig igazából egy pofonegyszerű és nagyon sok adattisztítási projektben használható általános elv segített.

A megoldást pedig a hírlevelemben leplezem le.
Akit érdekel, iratkozzon fel ITT.

Üdv,
Tomi

Az adatfalók. Nem-adatos kutatási módszerek adatosoknak

Mester Tomi — Wed, 28 Aug 2024 15:13:22 +0000

„DATA BEATS OPINION.”

Amikor junior adatos voltam, imádtam ezt a mondást. Mindig azt éreztem, hogy mivel én vagyok az adatos srác, ezért még a CEO-nál is többet tudok a cégről. (Mondjuk bizonyos részterületeken ez talán igaz is volt.)

Azóta viszont erőteljesen változott a véleményem.

Amikor az ember elindul a data science karrierjében, lenyűgözi, hogy mennyi tudás rejlik az adatokban.

Kicsit olyan, mint amikor Harry Potter-ék megérkeztek a Roxfort-ba. Lépten-nyomon egy újabb és újabb csodákra bukkantak.

Hasonló az érzés, amikor egy junior adatos megismeri az új algoritmusokat, elemzési módszertanokat és eljárásokat, amelyekkel rengeteg értéket lehet kivarázsolni az adathalmazokból.

Aztán J. K. Rowling varázslótanoncainál is elérkezik az elágazás a fejlődési útban: dönthetnek, hogy jóra használják a varázslatot… vagy „túltolják” és leigázzák vele az emberi világot és beállnak halálfalónak.

Az adatos szakemberből meg adatfaló lehet, ha nem vigyáz és azt hiszi, hogy ő mindent tud, csak azért, mert ő látja az A.D.A.T.-okat.

Most mutatok 4 egyszerű nem-adatos kutatási módszert, amivel adatos szakemberként is jobb eredményeket érhetsz majd el.

Ezek:

User-interjúk
Senior kollégák szakmai tapasztalata/intuíciója
Kérdőívek
Popup-kérdőívek

Ezeknek egyike sem fog tudományosan bizonyítottnak vehető eredményt adni — de baromi sokat fognak segíteni abban, hogy:

jó irányba indulj és/vagy menj tovább a data science projekteddel
mélyebben megértsd, hogy miért látod az adatos elemzéseidben azt, amit látsz

Nézzük is őket egyesével röviden.

Disclaimer: ezeknek a technikáknak nem vagyok szakértője. Csak azt írom le, amit (a) szakértőktől ellestem a munka során és/vagy (b) tapasztalati úton nálam jól működtek az elmúlt ~10+ évben.

#1 User-interjúk

A saját vállalkozásaimban az egyik legjobb lépéseim között volt, hogy rengeteg energiát tettem arra, hogy személyesen is beszéljek a vásárlóimmal (vagy leendő vásárlóimmal).

Bár a user/ux-interjúzás egy komplexebb téma (részletesebben írtam róla angolul itt), a legnagyobb különbség itt is aközött van, hogy csinálod-e vagy sem — nem pedig aközött, hogy profin csinálod-e vagy sem.

Ha még sosem csináltál user-interjút, itt egy egyszerű check-list, hogy hogyan kezdd el:

Amikor valaki megvásárolja egy termékedet, küldj neki egy automatikus e-mail-t, amiben megírod, hogy egy ~25-30 perces online beszélgetésben szívesen beszélgetnél vele, hogy segíts neki kimaxolni az értéket a vásárlásából.
Tegyél az email-be egy automatikus időpontfoglalót (pl. a Google ingyenes eszközét), amivel emberünk tud egy meeting-et foglalni a naptáradban.
A beszélgetésben fókuszálj erre a 3 területre (ha nem ismeritek egymást, akkor egy rövid bemutatkozás után természetesen):
1. Hogyan fog a vásárlódnak segíteni a terméked? (Tipikus kérdéseid lehetnek: „Mik az aktuális kihívásaid?”, „Szerinted miben fog neked segíteni ez a termék?”, „Mit vársz tőle?”, „Miért ezt választottad?”)
2. Első tapasztalatok. (Tipikus kérdéseid lehetnek: „Elkezdted már használni a terméket?”, „Ha nem, miért nem?”, „Mi az, ami tetszik benne?”, „Mi az, ami hiányzik belőle?”)
3. Tudsz-e segíteni valamiben most rögtön a vásárlódnak. (Ez nem csak azért hasznos, mert ő is értékkel távozik, hanem azért is, mert általában, amiben segíteni kell neki, az egy újabb igényre mutat rá.)
Csinálj kb 4-5 ilyen beszélgetést kutatási körönként!*

Nem tudom elég érzékletesen leírni, hogy mennyire-mennyire nagyon hasznosak ezek a beszélgetések.

Kb. 5 * 30 perc időbefektetést igényel az egész és garantáltan megváltozik a hozzáállásod a saját termékedhez: elkezded a felhasználóid/vásárlóid szemüvegén keresztül látni azt.

Ez óriási érték.

Az meg már csak külön bónusz, hogy ha lejegyzeteled a felhasználóid jellemző szófordulatait, akkor sokkal könnyebb lesz egy hozzájuk közel álló sales-oldalt megfogalmazni.

kép forrása: nngroup.com

*Miért pont 4-5 interjút érdemes csinálni?

Az NN Group kutatásai szerint, 4-5 beszélgetésből már kiesik a fontosabb tendenciák 70-80%-a.

Disclaimer: Bár ők ezt usability test-ekre csinálták, tapasztalataim szerint, ez az 5-beszélgetéses ökölszabály megfeleltethető kb. minden ilyen user-interjús szitura is.

#2 Senior kollégák szakmai tapasztalat (és/vagy intuíciója)

„Without data, you’re just another person with an opinion.” mondja Deming.

De amúgy meg: „Without opinion, you’re just another person with data.”

Visszavágtam!

Akárhogy is:

A senior kollégák, 10-20+ év szakmai tapasztalattal mindig nagyon érdekes dolgokat tudnak mondani egy új adatos szakembernek.

Nem véletlen az, hogy a szerelőműhelyben a tapasztalt szakik már a kocsi hangjából hallják, hogy két hónap múlva cserélni kell majd a fúvókát. (Akármi is legyen az.) Vagy ma hallottam egy konferencián Tóth Miklóstól (senior AI/ML szakértő), hogy egyik-másik idősebb doki már a járása alapján megmondja egy betegről, mikor belép a rendelőbe, hogy ilyen vagy olyan belső szervi problémája van.

Persze az emberi intuíció is egyfajta múltbeli tapasztalatokon (adatokon) működő rendszer, amit az agyunkban levő neurális hálók generálnak… Kicsit másképp, mint a nagy adatos rendszerek a számítógépünkön, de nem kevésbé hasznos módon.

Szóval óriási ziccert hagy ki az ember, ha nem azzal kezdi a data science projektjét, hogy összeszedi az iparági best practice-eket és azokat a dolgokat, amiket mások amúgy már tudnak a cégnél.

Persze ezek lehetnek téves berögződések… De meghallgatva őket legalább biztosan lesz pár hipotézisünk, amiket aztán adatokkal bizonyíthatunk vagy cáfolhatunk még.

#3 Kérdőívek

Trigger-alert…

A kérdőívek adatelemzői eszköznek szerintem borzasztóak.

Egy csomó olyan torzítás bejön a képbe, ami alapjaiban kérdőjelezi meg az egész műfaj létjogosultságát.

(A legnyilvánvalóbb torzítás: Ki tölti ki a kérdőívet és ki nem? Politikai választások előtti kérdőíves kutatásoknál rendszeresen tapasztaljuk ezeket a torzításokat, amikor pl. az egyik tábor még az a generáció, aki hajlandó válaszolni egy kérdőíves kutatásra, a másik pedig már az, aki kevésbé.)

Megjegyzés: Persze vannak statisztikai módszerek, amikkel azért csökkenthetőek a torzítások, de nagy meló kell hozzá, hogy valamennyire használhatóvá váljon az eredmény.

Mindenesetre ha te nem vagy statisztika guru, akkor javaslom, hogy ne kvantitatív, hanem kvalitatív módszertanként használd a kérdőíveket!

Ilyen formában továbbra is zseniális lehetőség van bennük.

Két dologra kell csak figyelned:

Amikor kérdezel:
ne eldöntendő, hanem kifejtendő kérdéseket tegyél fel.
Amikor értékelsz:
ne átlagokat vagy előfordulásokat számolgass, hanem egyesével olvasd el az összes választ.

Ha ezt az utat választod, akkor a kérdőív válaszok olyanná válhatnak, mint egy-egy mikro user-interjú… (lásd fentebb)

Továbbra sem tudsz majd belőlük tudományosan megbízható következtetéseket levonni, de megfelelő kritikával kezelve segíthetnek inspirálódni, elindulni a kutatásban és egy kicsit fényt deríteni a miértekre is.

Ha engem kérdezel, az ideális kérdőív hossza kb. 1-3 kérdés… (Attól függően, hogy ki a közönség.)

De persze lehet, hogy tévedek…

Sándorfy Adrián barátom pl. a saját üzleti klubjában, a BB Pro-ban kb. fél-egy éve egy 15 kérdéses () kérdőívet tolt ki a tagjainak. Mondtam is neki, hogy ez szerintem nagy hiba és senki nem fogja kitölteni… de végül neki lett igaza. A tagok 1/4-ede kitöltötte a kérdőívet és sok minőségi, részletes és jól használható válasz született.

Egy mini részlet:

Ezt csak azért tettem be ide, hogy mutassam, hogy egy ilyen általánosabb, nyílt végű kérdés („hogy tetszik”) mennyire jól teret ad arra, hogy a válaszadók szabadon kifejtsék a véleményüket.

A válaszokat olvasva meg az az érdekes, hogy bár sok minden előjön, de a sorok között olvasva pl. egy visszatérő témának tűnik a BB Pro-ban található anyagok hatékony feldolgozása. Persze ez csak egy apró részlet… Mindenesetre konkrétan tudom, hogy ennek a kérdőívnek az eredménye nagyon sokat hatott arra, hogy Adi hogyan fejlesztette tovább mind a terméket, mind a marketing-üzeneteit.

#4 Popup-kérdőívek

Nem tudtam nem ide tenni.

Ugye pont most írtam, hogy a kérdőívben érdemes kerülni az eldöntendő kérdéseket.

De azért van egy kivétel.

Ez az ún. exit-intent kérdőív, amit kifejezetten fizetési oldalakon szeretek használni.

Az üzleti helyzet:

Ott van a felhasználó az oldaladon, már a számlázási adatok kitöltésénél jár, tehát valószínűleg nem csak nézelődik, hanem egy komolyabb vásárlási szándéka van… És végül mégis bezárja az oldalt.

„Miért?!” — merül fel benned a kérdés.

Ilyenkor a bezárás előtti pillanatban (egérmozgás alapján) tudunk neki feldobni egy kis popup-ot és tényleg meg is kérdezni, hogy miért.

Miért megy el? Mi a probléma?

Mivel amúgy is távozna, ezért a konverziót nem rontjuk a popup-pal, de az utolsó pillanatban még egy fontos információt gyűjthetünk be arról, hogy „mit rontottunk el.”

Pl. a Data Klubnál így néz ki egy ilyen popup (még egyszer: csak akkor jön fel, amikor a felhasználó bezárná a fizetési oldalt)…

A Hotjar nevű szoftverrel 5 perc egy ilyet összerakni és a képen is látható alapverziója még ingyenes is.

Egy dologra érdemes figyelni: ez nem az a helyzet, amikor hosszú válaszokat tudunk szerezni a látogatóktól, úgyhogy itt tényleg csak egy pipálásra van idő, ami persze nem az igazi, de több, mint a semmi.

A fenti technikák kritikája…
(Miért kell adat?)

Szóval 4 egyszerű nem-adatos kutatási módszer adatosoknak is:

User-interjúk
Senior kollégák szakmai tapasztalata/intuíciója
Kérdőívek
Popup-kérdőívek

(Ha csak egyet próbálsz ki, az elsővel kezdd!)

Na de most, hogy ezt megírtam, visszaveszem a data-nerd sapkámat és hadd jegyezzem meg, hogy igen-igen a fenti módszertanok szuper kiegészítői egy data science projektnek… de nagy mennyiségű adat és annak a szakszerű elemzése nélkül nem sokat érnek. Pontosabban valamennyit mégis: segítenek megsejteni dolgokat.

De a sejtéseket aztán illik igazolni (vagy cáfolni) is — és ehhez már bizony le kell túrni az adatok mélyére.

Data36 Data Science Hírlevél

Belsős anyagok, útmutatók, karriertippek, új technológiák adattudományhoz — magyar nyelven.

Minden csütörtökön, közvetlen az e-mail fiókodba! Csatlakozz 1000+ adatos szakemberhez!

Köszi és üdv,
Mester Tomi

Data36 – Data Science Hírlevél

Nem a mesterséges intelligencia, amire szükségünk van…

Data36 Data Science Hírlevél

Thank you!

Statisztikára Edzünk…

Data36 Data Science Hírlevél

Thank you!

Adatforrások. Három ingyenes adatgyűjtési módszer Data Science Projektekhez

„Honnan szerezzek adatot?”

Három populáris módszert mutatok.

(1) Publikus adathalmazok letöltése

(2) Web-scraping

(3) API-kon keresztüli adatlekérés

Van még ennél több is…

Data36 Data Science Hírlevél

Thank you!

10x-szelem a bevételem WhiskyReturns.com-ból (mondjuk nem lesz nehéz…)

A projekt: WhiskyReturns.com

A funnel és a számok

A fejlesztési tervek

#1 Növelni a weblap-látogatók számát.

#2 Növelni a feliratkozó–»vásárló konverziót.

#3 Növelni a termék árát (és értékét).

Mi a matek?

Data36 Data Science Hírlevél

Thank you!

Az AI-generált kép az új stock fotó?

Data36 Data Science Hírlevél

Thank you!

Phyton kód: szép legyen vagy kész legyen?

Data36 Data Science Hírlevél

Thank you!

6 Tipp A Hatékony Szokásépítéshez

1⃣ A RENDSZEREK A FONTOSAK, NEM A CÉLOK.

2⃣ NEM AKARATERŐ KELL, HANEM MEGFELELŐ KÖRNYEZET.

3⃣ 2-PERCES SZABÁLY

4⃣ MÉRÉS

5⃣ „EGY KIHAGYÁS CSAK EGY HIBA. KÉT KIHAGYÁS EGY ÚJ SZOKÁS KEZDETE.”

6⃣ TÁRSAK AZ ÚTON.

Data36 Data Science Hírlevél

Thank you!

ChatGPT kódoláshoz: Segédeszköz vagy mankó?

Data36 Data Science Hírlevél

Thank you!

Adattisztítás feladvány

Az adatfalók. Nem-adatos kutatási módszerek adatosoknak

„DATA BEATS OPINION.”

#1 User-interjúk

#2 Senior kollégák szakmai tapasztalat (és/vagy intuíciója)

#3 Kérdőívek

#4 Popup-kérdőívek

A fenti technikák kritikája…(Miért kell adat?)

Data36 Data Science Hírlevél

Thank you!

A fenti technikák kritikája…
(Miért kell adat?)