Fingerprinting – Mitä se on, ja miksi sinun tulisi olla siitä tietoinen

Lukuaika min

Fingerprinting tunnistaa käyttäjät salakavalasti ilman PII-dataa. Fingerprinting on mahdollista estää server-side ratkaisun avulla.

Yksityisyydensuojaan ja sivustoseurantaan liittyvä keskustelu pyörii pitkälti PII-datan ympärillä. Personally Identifiable Information -termillä viitataan henkilöiviin tietoihin, eli dataan, jonka perusteella sinut voidaan tunnistaa juuri sinuksi. PII-data kertoo siis suoraan kuka olet ja missä asut. 

PII-data on ehdottomasti kriittisintä tietoa, jonka käsittelyssä, siirtämisessä ja varastoinnissa tuleekin noudattaa suurinta tarkkuutta. Keskittyessämme kuitenkin turvaamaan vain PII-dataa, saattaa toinen tunnistamisen muoto jäädä kokonaan huomiotta. On kyse fingerprintingistä, joka on salakavala keino saada selville yksittäisen käyttäjän identiteetti. Pureudutaan seuraavaksi siihen mitä se on ja miten sitä tehdään. 

 

Fingerprinting tunnistaa käyttäjät ilman PII-tietoa

Fingerprintingin voisi suomentaa sormenjälkien keräämiseksi: kerätään käyttäjästä useita yksittäisiä harmittomia tietoja, jotka yhdistämällä saadaan aikaan hyvinkin uniikki tunniste. Toisin sanoen, kerätty data koostuu viattomista yksittäisistä yksityiskohdista, jotka eivät sisällä henkilöivää dataa, ja joiden jakaminen ei siksi ole yksityisyyssuojan vastaista. 

Näitä voivat olla esimerkiksi seuraavat: 

  • Käyttöjärjestelmä
  • Selainversio
  • Näytön resoluutio
  • Selaimen kieli 
  • Järjestelmäversio

Juju piilee siinä, että näiden yksittäisten viattomien tietojen yhdistelmä on suurella todennäköisyydellä niin uniikki, että yksittäinen käyttäjä on vaivatonta tunnistaa. Mitä enemmän yksittäisiä tietoja on kerätty, sitä todennäköisemmin tunnistaminen onnistuu. 

 

Havainnollistetaan asiaa yksinkertaistetun esimerkin kautta: 

Alla olevassa taulukossa on kolme kuvitteellista sivustokävijää. Heistä kerätään taulukon sarakkeiden mukaisia harmittomia tietoja, jotka liittyvät tässä esimerkissä käytettyyn laitteeseen ja selaimeen. Kuten huomataan, tiedot eivät ole sinällään kovin kiinnostavia, tai kerro käyttäjän identiteetistä mitään: 

 

Käyttöjärjestelmä Järjestelmäversio AppleWebKit Näytön resoluutio Selain Selaimen versio Selaimen kieli Yhdistelmä
Essi Esimerkki macOS 13.4.0 537.36 1512×982 Google Chrome 116 en-gb macOS-13.4.0-537.36-1512×982-Google_Chrome-116-en-gb
Kalle Kuluttaja macOS 13.4.0 537.36 1512×982 Google Chrome 116 en-us macOS-13.4.0-537.36-1512×982-Google_Chrome-116-en-us
Akseli Asiakas macOS 13.4.1 537.36 2560×1600 Google Chrome 116 en-gb macOS-13.4.1-537.36-2560×1600-Google_Chrome-116-en-gb ​

 

Kiinnitetään kuitenkin huomiota korostettuihin kohtiin:
Tässä esimerkissä kaikilla sattuu olemaan sama käyttöjärjestelmä ja selain. Kallen kieliasetukset kuitenkin eroavat muista, ja Akselin näytön resoluutio on suurempi Essiin ja Kalleen verrattuna. Yksittäisinä nämä eivät ole kummoisia tietoja, mutta viimeisen sarakkeen yhdistelmä muodostaakin lopulta tunnisteen, joka on uniikki jokaiselle esimerkissä esiintyvälle sivustokävijälle. 

 

Miten fingerprinting liittyy sivustoseurantaan? 

Kävijätietojen tallentamisessa yrityksen omaan käyttöön ei ole mitään vikaa. Tiedostettavaksi asiaksi fingerprinting muodostuukin vasta siinä kohtaa kun ko. tietoja jaetaan muille osapuolille, kuten Googlelle, Metalle tai muille markkinointialustoille. 

PII-datan osalta ollaan toivottavasti jo tilanteessa, jossa tietoja ei enää valu eri puolille sitä tiedostamatta. Fingerprintingin kanssa asia on toinen, ja väitän, ettei asiaa tällä hetkellä oteta sivustoseurannassa huomioon lainkaan. Vaikka mainonnan pikselit laukeaisivat oikeaoppisesti vasta sitten kun käyttäjä on hyväksynyt markkinointievästeet, pikselit todennäköisesti saavat hyväksynnän jälkeen käyttöönsä kaiken tiedon mitä sivustokävijöistä on saatavissa irti. 

Google, Meta ja muut kumppanit kertovat hashaavansa kaikki kävijätiedot, ja näin varmasti tapahtuukin. Ongelma piilee kuitenkin siinä, että useimmiten yksittäiset henkilöt käyttävät samaa laitetta ja selainta vieraillessaan sekä somealustoilla että eri sivustoilla. Tällöin sivustolta saatujen tietojen avulla hash on helppo yhdistää vaikkapa Metan omiin käyttäjätietoihin: 

Kuten yllä olevan kuvan esimerkistä huomataan, hashayksesta huolimatta sivustokävijät ovat helposti tunnistettavissa yksittäisiksi henkilöiksi. Tässä tullaankin tärkeän kysymyksen äärelle: tulisiko fingerprintingissä hyödynnettävät tiedot itseasiassa luokitella PII-kategoriaan? 

 

Server-side -ratkaisu mahdollistaa fingerprintingin ennaltaehkäisyn

On olemassa ratkaisu, jonka avulla tulosten analysoinnille epäolennaiset, fingerprintingissä hyödynnettävät tiedot voidaan poistaa ennen niiden lähettämistä eteenpäin Googlelle ja Metalle. Ratkaisun nimi on server-side -tägitys eli palvelinperusteinen seurannan toteutus. 

Server-sidessa on mahdollisuus valita mitä tietoa haluat lähettää eteenpäin analytiikan ja mainonnan kumppaneille. Perinteisesti käytössä oleva selainpohjainen (client-side) ratkaisu lähettää tiedot selaimesta suoraan pikseleille, kun taas palvelinpohjaisessa (server-side) toteutuksessa palvelin toimii selaimen ja pikseleiden välissä kerroksena, jossa saatuja tietoja voidaan suodattaa ennen niiden välittämistä eteenpäin Googlen, Metan ym. käyttöön. Alla oleva kuva havainnollistaa ratkaisujen eroa: 

Pois suodatettavia tietoja voivat olla esimerkiksi IP-osoite sekä fingerprintingissä hyödynnettävät yksityiskohdat. Voit esimerkiksi valita, että web-analytiikkajärjestelmälle ei koskaan lähetetä käyttäjän IP-osoitetta, selaimen versiota ja selaimen resoluutiota. Ilman server-side -suodatusta nämä tiedot lähetetään analytiikkajärjestelmille aina.

 

Miten fingerprinting-tietojen suodatus toimii server-sidessa? 

Alla olevassa kuvassa on esimerkki meillä OIKIOlla käytössä olevasta server-side tägitysratkaisusta. Siinä vasemmanpuoleinen sarake kuvaa alkutilannetta, eli mitä kaikkia tietoja lähtötilanteessa on minusta käyttäjänä saatu, ja oikeanpuoleinen sarake taas tietoja, jotka server-side -toteutuksessa lopulta välitetään minusta eteenpäin esim. GA4:een: 

Kuten huomataan, kaikki fingerprintattavissa oleva data on suodatettu pois, samoin IP-osoite. Näin yksityisyyteni säilyy ja voin selata OIKIOn sivustoa ilman huolta tietojeni luovuttamisesta eteenpäin.

 

Mitä server-side -ratkaisu vaatii?

Server-side -toteutus on nopeasti ja helposti toteutettavissa. Esimerkiksi kaikille tutulla Google Tag Managerilla (GTM) on oma SGTM-mahdollisuus. Muitakin vaihtoehtoja on, esimerkiksi universaalit MetaRouter, Jentis, Stape ja Tracklution, sekä muiden analytiikkajärjestelmien tarjoamat omat server-side -ratkaisut. 

Olemme toteuttaneet OIKIOlla monia server-side -projekteja asiakkaillemme, ja lopputulemana on aina ollut selkeästi hallittava kokonaisuus, joka oletusarvoisesti suodattaa fingerprinting-tiedot pois. Projektit ovat olleet myös suoraviivaisia ja nopeita toteuttaa, ja keskimääräinen server-side -projektimme viekin vain noin 2-4 henkilötyöpäivän verran työaikaa web-analyytikoiltamme.

Ota yhteyttä, jos kiinnostuit. Suunnitellaan ja toteutetaan yhdessä yrityksellesi yksityisyyttä kunnioittava server-side -kokonaisuus. 



Krista Tikka

Web Analyst

Pesunkestävä web-analyytikko, jolla on taustanaan vuosikymmenen kokemus digimainonnasta, sekä vahvuutenaan taito selventää monimutkaiset asiat ymmärrettävästi.