Mums nereikia tavo sielos, mums reikia duomenų

– Ėhėi, la-abas! – džiaugsmingai atsiliepia ji nutraukdama Lady Gaga „Love Game“ melodijos 2D variantą riaumojusį iš truputį padrožto SE telefono. Prekybos centre prie kasos kaip tik jos eilė atsiskaityti. Ranka tiesia nuolaidų kortelę, – Prašau. Ne, ne čia ne tau, aš parduotuvėje. Ką sakei prieš tai?, – toliau čiauška mergina. Pardavėjas aparato pagalba nuskaito produktų bar-kodus, jos ranka ištiesia banko kortelę ir į juodą dėžutę įveda savo keturių skaitmenų kodą. Maišelis sutraška, sekantis pirkėjas.

Kol mergina su savo pašnekovu ar pašnekove dalinosi asmenine informacija, įvyko dar keletas rimtų informacijos mainų. Pavyzdžiu, merginos telefono operatorius sužinojo, koks numeris jai skambino ir kiek laiko jie šnekėjo (pagal ES direktyvą 2006/24/EC ši informacija duomenų bazėje bus laikoma bent 6 mėn). Perbraukus nuolaidų kortele į PC duomenų bazę nukeliavo kortelės turėtojo tapatybė, apsipirkimo laikas, informacija apie pirktus produktus. Į banką – informacija kur, kada ir už kiek buvo pirkta.

Aš neturiu ko slėpt, – be abejonės galvoja dalis skaitytojų. Tuo neabejoja ir PC marketingo skyriai analizuodami pirkimų istorijas ir stebėdami, kokios prekės perkamos kartu. Tokiems procesams ne taip aktualu, kad būtent tu, Vardeni Pavardeni, vakar pirkai alaus, taco ir guacamolės, vietoje sau įprastų koldūnų. Tai tik duomenys, informacija išgaunama, kuomet atrandamos taisyklės ir ryšiai tarp duomenų, remiantis kuriais galima kurti strateginius sprendimus, kaip prekių išdėliojimas lentynose, kainodara, elektroniniai pasiūlymai, nuolaidų sistemos ir t.t.

Žinios yra galia, – dar XVI amžiuje sakė Francis Bacon. O informacija yra žinojimo ir galios šaltinis. Pavyzdžiui, kuo daugiau tikros ir reikalingos informacijos apie asmenis yra sukaupusios tam tikros komercinės organizacijos, tuo potencialiai efektyvesnės ir galingesnės jos yra, nes gali šią informaciją naudoti savo galios ir įtakos plėtimui rinkoje.
Tokius veiksmus bando kontroliuoti vyriausybės. Pavyzdžiui, ES galioja 95/46/EC direktyva asmens duomenų apsaugai ir ES direktyvą 2006/24/EC telekomunikacijos duomenų saugojimui bent 6 mėnesius, dėl kuriuos priėmimo Berlyno reakcionistai ir anarchistai buvo ištapę miestą užrašais Stasi 2.0.

Kas yra data-mining?

Kaip sako profesorius Peter Brezany, kurio paskaitoje aš nusėdu Vienos universitete, bene pirmasis duomenų rinkimo specialistas buvo danų astronomas Tycho Brahe, kuris stebėjo planetas ir vedė sistemingus užrašus. Po Tycho mirties, jo asistentas Johannes Kepler sugebėjo atkurti planetų judėjimo taisykles ir tapo bene pirmuoju data mining specialistu.

Terminas data-mining verčiamas į duomenų gavybą arba duomenų kasybą. Žodis kasyba čia turėtų reikšti procesą kuomet iš žemės iškasamos vertingos medžiagos. Taigi data-mining arba duomenų gavyba yra procesas, kuomet iš didelio kiekio duomenų išgaunama vertinga ir vienprasmė medžiaga – informacija.

Norint išgauti iš duomenų būdus kaip vieni duomenys siejasi su kitais, reikalingas specialus jų paruošimas. Supaprastinus procesas vyksta taip: didžiuliame duomenų plote sukuriami vienprasmiški duomenų formatai (pvz. jei vienoje duomenų bazėje žmogaus ūgis įrašytas pėdomis, kitoje – centimetrais, trečioje – metrais, viskas paverčiama vienu formatu), duomenys išvalomi (pvz., jei pateikiama vizualinė informacija ji redukuojama iki matematinių modelių, ty. nėra reikalo atvaizduoti raudono trikampio jpg formato paveikslu, jei jis gali būti redukuojamas iki statinio ir kraštinės sandaugos pusės ir spalvos kodo).

Taip duomenų plotuose sukuriami vienprasmiški ir mažai vietos užimantys duomenų formatai. Klasifikuojant duomenų blokus ir ieškant ryšio tarp duomenų yra atrandami duomenų modeliai, kuriais remiantis atrandamos taisyklės, kaip duomenys yra susiję tarpusavyje.

Taip, skaitytojau, žinau, kaip tai skamba. Prof. Brezany matydamas suglumusius humanitarų veidus, tuoj pat imasi aiškinimo:

– Na štai, turime tūkstantį moterų ir joms reikia suknelių. Kad kiekvienai moteriai netektų eiti pas siuvėją, o fabrikai siuvantys sukneles galėtų imtis masinės gamybos reikalingi unifikuoti dydžiai: S, M, L. Išmatavus moterų ūgius, krūtinės, liemens ir klubų apimtis (ir galimus kitus dydžius) algoritmas turėtų suskirstyti dydžius į tris dideles grupes. Tarp šių dydžių atrandama taisyklė, koks turėtų būti dydis S, kad tiktų didžiajai daliai pirmos grupės moterų.

Šiuo metu „duomenų kasėjai“ turi susidoroti su itin dideliais kiekiais duomenų, be to duomenys paprastai pateikiami skirtingais formatais, yra nediskretiški, todėl nemažai laiko investuojama į duomenų valymą ir tvarkymą. Ir tik 20 proc. laiko procese skiriama pačiam duomenų modeliavimui.

Kur ir kaip pritaikoma duomenų gavyba?

Į duomenų gavybos technologiją dažnai žiūrima kaip į stebėjimo baubą, Orwelo Didįjį brolį. Technologija patraukli ir labai paranki sąmokslo teorijų mėgėjams, kurių galvose pakartotinai sukasi Bacon išmintis ir įtarimai, kad kažkoks piktavalis kitoje ekrano pusėje šią informaciją kaupia. O nematomos, slaptosios figūros ar organizacijos dažnai turinčios ypatingai didelių ar net antžmogiškų galių ir įtakos siekiančių sau naudos yra pagrindinis sąmokslo teorijų objektas.

Tiesa, dažnai duomenų gavyba taikoma marketinge (ne, tos kortelės su nuolaidomis skirtos ne vien tam, kad būtumėte lojalus klientas ir ateitumėte pasiimti savo nuolaidos). Informacija apie tai, kokie produktai yra perkami kartu, kokiu paros laiku jie perkami, kokia pirkėjų amžiaus grupė, gali būti naudojami planuojant prekių išdėliojimą lentynose, kainodarą, nuolaidų sistemas ir t.t.

Keldamos savo konkurencingumą, šiuo metu vyriausybės daug investuoja į šios technologijos vystymą ir stengiasi pasivyti komercines korporacijas. Pavyzdžiui, vienas FP7 (viena tarptautinių programų skirta ES mokslo vystymo finansavimui ir konkurencingumo kėlimui) remiamų projektų @neurist skirtingose Europos šalių ligoninėse renka ligonių duomenis, kaip amžius, lytis, aneurizmos dydis, forma ir t.t. ir padedami technologų ir semiotikų kaupia duomenis apie ligos eigą, vėliau remiantis šiais duomenimis mokslininkai sprendžia koks gydymo būdas gali būti efektyviausias. Duomenų gavyba taip pat naudojama meteorologijoje, pavyzdžiui norint nustatyti potvynių galimybę, taip pat prognozuojant derlių ir pan.

Profesorius James Hamilton iš Duke universiteto lygiai prieš metus siūlė ateities automatinę žiniasklaidos savitvarkos schemą, kurią pavadino kompiuterine žurnalistika (angl. computational journalism). Pasak jo, netolimoje ateityje yra įmanoma sistema paremta duomenų gavybos technologija, kuri iš daugybės įvairiakalbių šaltinių internete atrinktų su tam tikra tema susijusią informaciją ir iš jos sukompiliuotų straipsnio dalis ar net visą naujienų straipsnį.

Tai neva galėtų būti efektyvus atsakas į pramoginio turinio žiniasklaidos populiarumą, mat naudojant automatizuotas programas būtų taupomi žmogiškieji resursai. Kita vertus, juk niekas negarantuoja, kad pramoginė žiniasklaida, negali tokios technologijos išnaudoti savo reikmėms, pavyzdžiui planuodama kokių partnerių prie naujo X.Y. sceninio įvaizdžio reikėtų, kad X.Y. susilauktų didžiausio skaitytojų susidomėjimo.

Daug smagesnės paslaugos paremtos duomenų gavybos technologija yra finansuojamos „Sunlight“ (lt. Saulės šviesos) fondo, veikiančio JAV. Pavyzdžiui, watchdog.net į kurio užklausos langelį įvedus JAV parlamento politiko pavardę galima sužinoti jo politinę pakraipą, balsavimų statistiką, politiškai artimiausius žmones ir pan. Taigi žurnalistas, aprašinėdamas dar vieną politiko pasisakymą, gali šalia pateikti duomenis, kada ir už kokius sprendimus minėtas politikas balsavo.

Duomenų gavybos technologija naudojasi ir vienas didžiausių informacinių komunikacijos technologijų ir kūrybinių industrijų išteklių tiekėjas Google.

Kodėl 2010 m. Google bus keikiamas labiau nei bet kada

Gana seniai, 2003 m., Pensilvanijos universiteto Annenbergo viešojo administravimo centras atliko interneto vartotojų apklausą. Apklausus 1200 žmonių paaiškėjo, kad 57 proc. jų mano, kad jei puslapis sakosi turintis „privatumo politką“ (angl. privacy policy) tai reiškia, kad jų asmeninė informacija yra apsaugota ir ja nesidalijama su kitais puslapiais ar trečiaisiais asmenimis, o štai 59 proc. sakosi nežinantys, kad puslapius pasiekia jų asmeninė informacija net jei jie nesiregistruoja (šaltinis).

Straipsnio autorė neabejoja, kad dabar reikalai pasistūmėjo į priekį. Tačiau, reikia pažymėti, kad informacija, kurią turi paslaugų tiekėjai, tikrai neapsiriboja informacija, kurią jūs suvedate į laukelius „vardas“, „amžius“ ir kt. Labai svarbi informacija yra jūsų klaidžiojimo internete istorija, mat remiantis ja galima siūlyti paslaugas, prekes, suteikti suasmenintus paieškos rezultatus (kaip pvz. daro google) ir t.t. Paprastai, kuo prieinamesnė, patogesnė, efektyvesnė ir paprastesnė paslauga, tuo dažniau ji naudojama.

Viešojo gėrio vardan dabar šiek tiek papasakosiu apie reCAPTCHA ir YouTube privatumo politiką.

Jūsų asmeninis kompiuteris, kaip ir kiti tinklo įrenginiai, ne naujiena, turi unikalų ir nekintantį IP adresą. Kiekvieną kartą jums kreipusis į atitinkamą puslapį, kaip www.ore.lt, tame puslapyje registruojamas IP adresas (priklausomai nuo situacijos tai gali būti jūsų asmeninio kompiuterio IP, jūsų maršrutizatoriaus ar modemo IP), taip sužinoma, kad iš jūsų kompiuterio (maršrutizatoriaus ar modemo) kažkas apsilankė puslapyje Ore.lt. Kaskart jums įsijungus bet kokią google paslaugą, į jūsų asmeninio kompiuterio naršyklę įsegamas slapukas (angl. cookie). Slapukas registruoja jūsų apsilankymus puslapyje ir atsimena jūsų duomenis.

Kai prisijungiate prie savo el. pašto, google „žino“ kad jūsų IP adresas naudojasi elektroninio pašto adresu manovardas@gmail.com (kartais ten būna parašytas ir tikras jūsų vardas ar pavardė).

Kol naršote po paieškos sistemą google žino, kokios temos domina jūsų kompiuterio vartotoją ir tuo remiantis, jums gali siūlyti susijusią reklamą. Tačiau, net kai esate neprisijungęs prie google sistemos, google vistiek apie jus žino.

Štai 2009 m. rugsėjį Google įsigijo saugumo paslaugą reCAPTCHA, ji naudojama daugelyje puslapių norint apsisaugoti nuo interneto šiukšlių. Kiekvieną kartą jums užkrovus puslapį, kuris naudojasi reCAPTCHA paslaugomis sužinomas jūsų IP, laikas ir data, kada jūs lankėtės tame puslapyje, su jumis sveikinasi reCAPTCHA slapukas. Todėl informaciją apie jūsų apsilankymą žino ne tik puslapio kuriame lankotės savininkas, bet ir reCAPTCHA. Prisijungiate prie google el. pašto iš savo kompiuterio: BAM, google žino, kokiame puslapyje buvote prieš tai, net jei nesprendėte reCAPTCHA kodo. Susipažinkite plačiau.


Pažįstamas reCaptcha

2006 m. Google įsigijo YouTube. Kaskart apsilankę puslapyje, kur yra įdėta YouTube embed nuoroda, jūs pranešate google, kad apsilankėte puslapyje, nereikia nė spausti „play“. Prisijungiate prie savo el. pašto iš kompiuterio, ir vėl tas BAM – google žino, kad čia jus.

Sarkastiškas britų kompiuteristų tinklapis Theregister.co.uk apibendrindamas 2009 metus jau paskelbė Google naujuoju Microsoft. Aišku, monopolistai niekam nepatinka. O Google iš jaunatviškos svajonių kompanijos viešajame diskurse pamažu virsta į Orvelo scenarijuje integruotą Stasi 2.0 su CCTV. Pasaulis bijo.

Štai Vokietijos teisingumo ministrė Sabine Leutheusser-Schnarrenberger prieš keletą dienų sakė populiariam Vokietijos dienraščiui „Der Spiegel“: „Jie (google – aut. past.) tampa gigantišku monopoliu, tokiu kaip Microsoft. Aš manau, kad nereikia nieko drausti ar stabdyti, tačiau norėčiau, kad šiame procese būtų daugiau skaidrumo, kitaip tariant, kad galėtume užtikrinti, jog vartotojai žinos, kas vyksta su jų duomenimis. Manau, kompanijos privalo patobulinti daugelį dalykų. Jei to nenutiks, mes privalėsime imtis legalių priemonių.“

Vienas google savininkų ir vadovų Eric Schmidt šiek tiek daugiau nei prieš mėnesį kalbėdamas apie privatumą CNBC laidoje nesėkmingai leptelėjo: „Jei yra dalykų, apie kuriuos nenorėtumėte jog žinotų kiti, gal neturėtumėte daryti jų išvis?“

Eric turbūt nenorėjo pasakyti, kad paslapčių turi tik nusikaltėliai. Juolab, kad klausimas kurį kelia šis straipsnis yra labiau ne apie asmenines paslaptis, ne apie lankomas porno svetaines ar susidomėjimą Ku Klux klano veikla, o apie tai, kad informacija yra galios šaltinis. Kuo daugiau informacijos turi paslaugų tiekėjai, tuo galingesni ir perspektyvesni jie yra rinkoje, t.y. tuo daugiau informacijos jie galės surinkti ateityje, tuo lengviau tokiam tiekėjui dominuoti rinkoje.

Tačiau piktintis ne visada teisinga. Juk pašto, vaizdo, garso, saugumo nemokamos paslaugos tėra paskutinių dešimties metų iliuzija, už visas paslaugas susimokama, šiuo metu valiuta – asmens duomenys.