Poikkeamien tunnistaminen | OIKIO Oy

Poikkeamien (anomalioiden) tunnistaminen web-analytiikan yhteydessä puolestaan on jäänyt yllättävän pienelle huomiolle web-analytiikkaan liittyvissä keskusteluissa ja artikkeleissa. Termi viittaa prosessiin, jossa pyritään tunnistamaan tai havaitsemaan odottamattomia ja epätavallisia tapahtumia tai ilmiöitä suuressa datamäärässä. Tällaisia poikkeamia voi olla web-analytiikan kontekstissa esimerkiksi seurannan ongelmat, jossa esimerkiksi uusin tuotannon versio sivustosta on rikkonut seurannan, dataputki ei toimi tai SQL-kysely ei ota huomioon tyhjiä arvoja (null). Myös muut epätyypilliset tapahtumat, jotka poikkeavat normaalista verkkovierailudatasta tai odotuksista voidaan havaita poikkeamia tarkastelemalla.

Tämä kirjoitus ei ota kantaa tunnistettujen poikkeamien analysointiin tai niistä tehtävien johtopäätösten tekemiseen. Myös poikkeuksien tunnistamisessa, kuten kaikessa tekemisessä, on positiivisten ominaisuuksien lisäksi myös haittapuolet. Poikkeamien tunnistamisen kanssa tulee tilastoja havainnoida kriittisesti. Asioita joita tulee huomioida ovat muun muassa poikkeamat joita menetelmä ei tunnista, harvinaiset poikkeamat ja tämän tuottama bias, mittauksen epätarkkuus, satunnaisvaihtelut, ympäristön vaihtelut tai väärä analysointimenetelmä. Havainnoi aina poikkeamia kriittisesti ja pyri löytämään mahdollinen selitys poikkeamalle.

Tiesitkö, että GA4 käyttöliittymässä on olemassa ominaisuus jonka avulla voit tunnistaa yksinkertaisia poikkeamia GA4 datasta? Googlen sisäänrakennettu anomalioiden tunnistus hyödyntää niin aikasarja-analyysiä kuin pääkomponenttianalyysia (PCA). Aikasarja-analyysi tarvitsee kahden viikon harjoitusdatan, ja se ajetaan tämän jälkeen päivittäin. Pääkompontenttianalyysi etsii otannasta datan vaihtelun kannalta keskeisimmät datapisteet ja asettaa ne lineaariseksi joukoksi, huomattavasti joukosta eroavat datapisteet tulkitaan poikkeamiksi. Pääkomponenttianalyysi ajetaan GA4-järjestelmässä automaattisesti kerran viikossa. Kokonaisuutta ajatellen, custom insights on helpoin tapa tunnistaa poikkeamia sivustolta ja on hyvin yksinkertaista kytkeä päälle!

Riippuen sivuston tyypistä ja liikenteen määrästä tulee miettiä mitkä anomalia-mittarit kannattaa kytkeä päälle. Mikäli sivustolla on paljon kausivaihtelua tai kampanjoinnista aiheutunutta vaihtelua, saamme huomattavan määrän virheellisesti positiivisia tuloksia. Tämä onkin yksi anomalioiden tunnistamisen suurimmista ongelmista, johon ei pystytä varautumaan ilman käyttäjän syöttämiä muuttujia kausivaihteluista, kampanjoista tai muista tilastoihin vaikuttavista hypoteeseista.

Kellokäyrä kuvastaa kuinka useimmat satunnaiset havainnot ryhmittyvät keskiarvon ympärille noudattaen normaalijakaumaa, jossa puolet havaintopisteistä ryhmittyy keskiarvon alapuolelle (vasemmalle) ja puolet keskiarvon yläpuolelle (oikealle). Huomaathan, että kaikki tilastot eivät noudata normaalijakaumaa. Normaalijakaumaa noudattavissa tilastoissa 68 % havainnoista sijoittautuu yhden (1σ) keskihajonnan sisään, 95 % kahden (2σ) keskihajonnan sisään ja 99.7 % kolmen (3σ) keskihajonnan sisään.

Poikkeamien tunnistaminen verkkosivuston analytiikkadatasta

Taso 1: GA4 custom insights

Taso 2: Keskihajonta

Taso 3: Koneoppimisen mallit

Miten liikkeelle?

Place an image or any other element you want