Huhtikuun tilastosivu on Kaggle, data sciencen koti

Tuomo Nieminen 2016-04-11 1 min read

Tyyppiarvo valitsee joka kuukausi yhden tilastoaiheisen sivuston esittelyyn. Huhtikuun sivusto on data scientisteja ja yrityksiä maailmanlaajuisesti yhdistävä, Anthony Goldbloomin vuonna 2010 perustama Kaggle.


Kaggle on paikka, jossa ongelmat ja niiden ratkojat kohtaavat toisensa. Kaggle julkaisee ongelmia ja niihin liittyvää dataa, ja sitten kymmenet tai sadat data scientist -tiimit kilpailevat siitä, kuka ratkaisee kyseisen ongelman parhaiten.

Kagglen kilpailujen idea on yksinkertainen. Lataa datasetti ja rakenna sen perusteella ennustava malli. Parhaiten tuntematonta dataa ennustava malli voittaa ja palkintona voittajajoukkueelle on esimerkiksi rahaa tai työpaikkoja. Kilpailun edistymistä seurataan leaderboardin avulla.

Palkinnot ja datasetit tulevat yrityksiltä tai muilta tahoilta, joilla on ongelma ratkaistavana. Kagglen kilpailujen kautta on esimerkiksi kehitetty Microsoft Kinectin liikkeentunnistusta ja osallistuttu Higgsin bosonin etsintään.

Kilpailujen osallistujat ovat tilastotieteiljöitä, tietojenkäsittelijöitä, taloustieteilijöitä yms data scientist -nimikkeen alle mahtuvia tieteilijöitä ympäri maailmaa. Kaggle-yhteisöön kuuluukin kymmeniä tuhansia data scientisteja yli sadasta maasta ja 200 yliopistosta.

Kaggle on paikka, jossa on mahdollista testata taitojaan alan huippuja vastaan.