taulukossa kuvaikoneita

Savonia-artikkeli: Työkaluja datan visualisointiin

#SavoniaAMK

Green Datan Future Solutions -hankkeessa tekemisen yhtenä pääpainona oli tehdä yritysten kestävään kehitykseen liittyvästä datasta viestinnällistä sisältöä tiedon visualisoinnin keinoin. Hankkeessa tehtiin erilaisia pilotteja, joihin sisältyi datan keruuta, analysointia, raportointia ja viestintämateriaalien tuottamista. Tässä tekstissä annetaan yleiskatsaus tiedon visualisoinnista osana data-analyysin prosesseja, tiedolla johtamista ja viestintää sekä esimerkkejä työkaluista.

Visualisointi osana data-analyysiä

Data-analyysi voidaan kuvata prosessiksi, jossa raakamuotoisesta datasta etsitään hyödyllisiä ja kiinnostavia tietoja erilaisia menetelmiä käyttäen. Data-analyysin vaiheita ovat korkealla tasolla valmistelu, esikäsittely, analyysi ja jälkikäsittely. Raakadatan keruussa on usein monia vaiheita ennen kuin kuin BI-asiantuntijat, datatieteilijät, data-analyytikot ja muut datan käpistelijät pääsevät jalostamaan datasta lisäarvoa tuottavia analyysejä ja sovelluksia. Erilaisista Big Datan käsittelyn, tiedonlouhinnan ja koneoppimisen työkaluista voisi laatia omat artikkelinsa, mutta tässä keskitytään lähinnä visualisointiin liittyviin työkaluihin. Visualisointi tulee mukaan erityisesti tiedon analysoinnin ja raportoinnin yhteydessä.

Erityisesti eksploratiivinen data-analyysi on pohjimmiltaan iteratiivinen prosessi, jossa nivoutuu yhteen datan muokkaamisen, siistimisen, rikastamisen, visualisoinnin, tunnuslukujen laskemisen, mallien luomisen, validoinnin ja havaintojen jakamisen vaiheita. Alla on yksi kuvaus tästä prosessista. Visualisointi auttaa tässä prosessissa huomattavasti mm. poikkeamien paikantamisessa, jakaumien tutkimisessa, toistuvien kaavojen löytämisessä, ajanjaksojen ja muuttujien yhteyksien tarkastelussa. Ylipäätään visualisointi on keskeisessä asemassa datan ymmärtämisessä ja havaintojen tekemisessä. Analyysivaiheessa käytetyt visualisoinnit ovat tyypiltään hieman erilaisia ja vähemmän viimeisteltyjä kuin tulosten viestinnässä käytetyt visualisoinnit, vaikka voivat hyvin toimia näille pohjana.

Kuva symboli-ikoneista
Kuva 1. Data-analyysin prosessin vaiheita (Lähde: Chitranjan Gupta, 2022 https://medium.com/codex/life-cycle-of-a-data-analytics-project-954d0e6926fe)

Joitain tunnettuja data-analyysin työkaluja ovat mm. R, Python, Jupyter, Excel, KNIME, Power BI, SPSS, Tableau, Matlab ja RapidMiner. Esimerkiksi paikkatiedon analysointiin on sitten myös omia työkalujaan, kuten ArcGIS, CARTO ja QGIS. Kuten listasta jo näkee, analyysiä voi tehdä hyvin monenlaisilla työkaluilla ja erilaisilla lähestymistavoilla. Useimmilla työkaluilla onnistuu mm. datan muunnokset, tilastolliset analyysit, mallien muodostamiset, raporttien luomiset ja tietysti visualisoinnit.

Yksittäisten tiedon visualisointien luominen

Tiedon, datan ja informaation visualisointiin liittyvä termistö on hyvä tuntea. On hyvä huomata, että tiedon (tai vaihtoehtoisesti datan) visualisointi kattaa tavanomaisten pylväskaavioiden, viivakaavioiden ja vastaavien lisäksi myös mm. taulukot, kartat, verkkodiagrammit (mm. vuokaavion) ja vaikka sanapilvet. Visualisointi itsessään on vielä laajempi käsite, mutta pitäydytään tässä suppeammassa tiedon visualisoinnissa, johon liittyy suomeksi mm. termit diagrammi, kaavio, kuvaaja ja graafi. Englanniksi puolestaan käytössä on mm. termit diagram, information graphic, chart, graph, figure ja plot. Näiden termien merkityksessä on jonkin verran eroavaisuuksia, vaikka käytännössä niitä käytetään iloisesti sekaisin. Erilaisia tiedon visualisoinnin tyyppejä löytyy mm. Data Visualisation Catalogue palvelusta, jossa niitä voi etsiä myös käyttötavan mukaan. Esimerkiksi vertailuun, osuuksiin, jakaumiin, prosesseihin ja sijanteihin on omanlaisensa esitystavat.

Kuva symboli-ikoneista
Kuva 2. Joitain visualisoinnin tyyppejä Data Visualisation Catalogue palvelusta.

Yksittäisiä visualisointeja näkee mm. lehtiartikkeleiden, verkkoartikkeleiden tai erilaisten raporttien osana. Vaikkapa lehtiartikkeleissa visualisoinnit ovat staattisia, mutta verkkojulkaisuissa visualisointeihin voi liittää myös interakiivisuutta rajoitetusti. Yksittäisen kaavion interaktiivisuus voi tarkoittaa mm. hiiren alla olevien datapisteiden korostamista, suodattamista, zoomaamista tai lisätiedon näyttämistä hiiren päälle viemällä.

Erilaisia työkaluja yksittäisten kaaviokuvaajien ja diagrammien luomiseen on monia. Valinta riippuu käyttötarkoituksesta ja eroja on mm. kaavion luontitavan ja tuloksen interaktiivisuuden suhteen. Kaikille tuttu esimerkki on Microsoft Office (nykyään Microsoft 365) tuoteperheen kaaviotyökalut ja muiden tuottavuussovellusten vastaavat, joita voi käyttää mm. taulukkolaskentaohjelmien kanssa. Näissä riittää ominaisuudet peruskaavioiden luomiseen vaikka raportteja varten yleensä ilman koodaamistarvetta. Koodaamisen antamaa vapautta ja tehokkuutta arvostavien kannattaa tutustua mm. R ja Python kielien monipuolisiin visualisointikirjastoihin.

Jaettaviin kaavioihin interaktiivisuutta kaipaavien ja omia sovelluksia kehittävien kannattaa kääntyä erilaisten Javascript-kirjastojen puoleen. Lähestulkoon kaikissa dataa keräävissä palveluissa on jonkinlaisia käyttäjälle tietoa visualisoivia näkymiä, jotka toteutetaan yleensä jotain valmista kirjastoa käyttäen. Erilaisia Javascript-kirjastoja kaavioiden luomiseen on hurja määrä – joitain tunnetuimpia ovat mm. D3.js, Google Charts, amCharts, Chart.js, FusionCharts, Recharts, Victory, CanvaJS ja ECharts. Osa näistä toimii myös esim. R ja Python kielien kanssa, jolloin saadaan kuvaajiin interaktiivisuutta raporttien ja dashboardien osaksi. Jos ei koodaaminen innosta, yksittäisiä interaktiivisia kaavioita saa tehtyä myös vaikka Datawrapper, Flourish, Plotly, Infogram, Visme tai Canva työkaluilla pääosin ihan ilmaiseksi. Vuokaavioihin, karttoihin ja muihin erilaisiin tiedon visualisointeihin on sitten myös omia työkalujaan.

Dashboardit ja raportit

Laajempia ja monimutkaisempia datamassoja visualisoidaan usein erilaisia kaavioita, tauluja ja lukuja sisältävien käyttöliittymien ja raporttien avulla. Tiedolla johtamisen (BI) yhteydessä puhutaan usein “dashboard-näkymistä” tai “kojelaudoista” tai “johdon työpöydistä”, jotka koostavat yhteen mm. erilaisia liiketoiminnan suorituskyvyn mittareita (KPI-mittarit). Dashboard tuntuu olevan Suomessa yleisesti aiheesta käytetty termi, joten käytetään sitä tässäkin artikkelissa selkeyden vuoksi. Usein tiedolla johtamisen tarpeita varten tieto kootaan mm. erilaisista toiminnanohjauksen järjestelmistä ensin esim. yhteiseen tietovarastoon, josta tietoja poimitaan analysoitavaksi, tekoälymallien hyödynnettäviksi ja erilaisiin tarkastelukäyttöliittymiin. Perusajatuksena on tarjota seurantaa ja tietoa päätöksenteon tueksi.
Dashboard-näkymiä voidaan luokitella esim. strategisiksi, analyyttisiksi, operatiivisiksi ja viestinnällisiksi. Erityisesti analytiikkaan painottuvat dashboardit voivat olla itsessään aiemmin mainitun data-analyysin välineitä, joissa muutkin tietotyöntekijät kuin data-ammattilaiset voivat kaivaa tarvitsemiaan tietoja. Viestinnällinen dashboard voi olla esimerkiksi infograafin kaltainen. Dashboard Design Patterns sivustolla avataan erilaisia dashboardien tyyppejä ja suunnittelumalleja.

kuva dashboard näkymästä
Kuva 3. Dashboardien suunnittelussa huomioon otettavia asioita Dashboard Design Patterns sivustolta.

Dashboard-näkymän voi ajatella poikkeavan “raportista” mm. siinä mielessä, että dashboardissa oleellinen tieto pyritään laittamaan kerralla näkyville jatkuvaa seurantaa varten. Ehkä voisi yksinkertaistaen sanoa, että yleensä dashboard kertoo mitä on tapahtumassa ja raportti kertoo mitä on tapahtunut. Raportti voi olla hyvin yksityiskohtainen tai suppea, automaattisesti generoitu tai käsin tehty, staattinen tai interaktiivinen, sisältää reaaliaikaista dataa tai mennyttä dataa ja sisältää tai olla sisältämättä tiedon visualisointia.

Viime vuosina yritysmaailmassa on nähty siirtymää pois esim. kuukausittaisista raporteista kohti reaaliaikaisempia (dashboard) näkymiä. Dashboardit mahdollistavat sen, että muutkin kuin data-ammattilaiset saavat kaivettua esiin liiketoimintaa hyödyttävää tietämystä silloin kun sille on tarve. Raporteilla on kuitenkin vielä oma paikkansa ja roolinsa osana liiketoiminnan prosesseja, jos ja kun esim. kaivataan tarkempia data-ammattilaisten tekemiä analyysejä.

Tiedolla johtamisen ohjelmistoja on monenlaisia, mutta tiedon visualisointiin painottuvista alustoista viime vuosien tunnetuimpia lienevät Tableau ja Power BI. Muita tunnettuja vastaavan kaltaisia kaupallisia ohjelmistoja ovat mm. Qlik, Looker (+ Looker Studio), Zoho Analytics ja Sisense. Avoimen koodin (enemmän tai vähemmän) työkaluista tunnettuja ovat mm. R Shiny, Streamlit, Redash, Dash, Grafana, Superset ja Metabase. Kaikissa mainituissa alustoissa on omat ominaisuutensa ja painotuksensa, joten ne eivät ole sellaisenaan verrattavissa keskenään. Esimerkiksi reaaliaikaisen IoT-datan näyttämiseen toiset alustat soveltuvat paremmin kuin toiset. Yhteistä on lähinnä, että kaikilla mainituilla alustoilla on mahdollista tehdä jonkinlaisia dashboard-näkymiä.

Infograafit viestinnän välineinä

Green Data -hankkeessa infografiikat olivat erityisen kiinnostuksen kohteena, sillä infografiikka on tehokas tiedon välittämisen väline. Useimmista dashboardeista ja muista tiedon visualisoinneista infografiikka poikkeaa erityisesti esitystavan ja tavoitteen suhteen. Infografiikan tarkoituksena on erityisesti antaa tietoa, viihdyttää ja vakuuttaa lukija jostain. Infografiikassa tarinallisuus ja visuaalinen ilme ovat keskeisiä asioita. Yleensä ottaen infografiikoissa on suhteessa vähän numeroita ja kaavioita. Pääpaino on kaikkein keskeisimmän tiedon selkeässä esittämisessä ja tietoa tukemassa on yleensä tekstiä ja muita kuvituksia.

Infografiikoita voidaan tehdä joko staattisesti “posterityyppisinä” tai verkon mahdollistamana jossain määrin dynaamisena. Infografiikoissa tieto itsessään ei tavallisesti automaattisesti päivity toisin kuin vaikka dashboard-näkymissä. Staattisia kuvamuotoisia infografiikoita pystyy luomaan vaikka Adobe Illustrator tai InDesign kaltaisilla julkaisutyökaluilla. Verkkopohjaiset työkalut mahdollistavat yleensä ottaen dynaamisempien elementtien, kuten videoiden, animaatioiden ja interaktiivisuuden lisäämisen infografiikoihin sekä monipuolisemmat jakeluvaihtoehdot pelkkien kuvien levittämisen lisäksi. Verkkopohjaisista työkaluista hankkeessa tutustuttiin mm. Infogram, Prezi (työkalut samat kuin Infogramissa), Canva, Visme, Venngage ja Adobe Express työkaluihin.

Hankkeeseen hankittiin lisenssi Infogram-työkaluun ja sitä hyödynnettiin mm. kaupunkipyörien ja aurinkoenergiadatan visualisoinnissa. Alla olevassa linkissä on esimerkki hankkeessa tekemästämme infograafista. Kyseisessä esimerkissä olisi vielä paljon parannettavaa visuaalisesti ja viestinnällisesti, joten se kannattaa ottaa lähinnä esimerkkinä interaktiivisesta infograafista. Infogramiin päädyttiin mm. sen tarjoaman ohjelmointirajapinnan ja datan päivitysmahdollisuuksien vuoksi. Käytännössä nämä ominaisuudet osoittautuivat melko rajoittuneiksi. Live-dataa varten on edelleen paras kehittää oma käyttöliittymä taustajärjestelmineen tai käyttää vaikka yllä mainittuja dashboard-sovelluksia.

Katso infograafi Vilkku-fillarien käyttötilastoista tästä.

Työkalu tarpeen mukaan

Tässä kirjoituksessa mainittiin monenlaisia tiedon analysoinnin ja visualisoin työkaluja. Green Data hankkeen aikana testissä tai käytössä meillä oli monenlaisia tiedon visualisointiin, analysointiin ja raportointiin liittyviä työkaluja. Alla on lyhyet kuvaukset useimmista hankkeen aikana jollain tavalla hyödynnetyistä työkaluista. Listasta puuttuu mm. ohjelmistokehitystyökaluja, pilvityökaluja ja hankeyritysten omia sovelluksia.

taulukko
Kuva 4. Taulukko käytettävissä olevista työkaluista.

Hankkeessa saimme lähinnä raapaistua pintaa koko tiedolla johtamisen, tiedon visualisoinnin ja informaatiomuotoilun kiehtovasta maailmasta. Visualisoinnin parhaiden käytäntöjen soveltaminen, tilanteeseen oikeiden työkalujen valinta, tarinallistaminen ja tehokkaimman esitystavan löytäminen käsillä olevaan tietoon kohderyhmä huomioiden ovat kokemuksen mukana kehittyviä taitoja. Hyvään tiedon visualisointiin tarvitaan muotoilun, tilastotieteen ja tiedonkäsittelyn ymmärrystä. Visualisoinnilla on keskeinen rooli tiedon ymmärtämisessä ja välittämisessä eikä tämä rooli ole ainakaan pienenemässä datan määrän räjähdysmäisen kasvun myötä.

Teksti ja taulukot:

Jesse Honkanen, TKI-asiantuntija Savonia ammattikorkeakoulu, jesse.honkanen@savonia.fi