Wszyscy kłamią. Czy Google prawdę Ci powie?

Po raz pierwszy w historii to, co chcemy ukryć w mroku przed innymi, staje się publiczne, gdy siadamy przed ekranem komputera. I chociaż jesteśmy notorycznymi kłamcami, analiza danych może pomóc nam lepiej zrozumieć samych siebie.

Gdy dr Gregory House, wypowiedział w piątej minucie pierwszego odcinka serialu słynne wszyscy kłamią, wielu z nas mogło słusznie uznać, że to dobrze brzmiący bon mot, ale zdecydowanie na wyrost. Ot, opinia zgorzkniałego i rozczarowanego życiem faceta w kryzysie wieku średniego, uzależnionego od Vicodinu, leku przeciwbólowego.

Serial Dr House miał premierę w listopadzie 2004 roku. W lutym tego samego roku student Harvardu Mark Zuckerberg uruchomił serwis o nazwie Facebook. Google rósł w siłę już od sześciu lat. Przepaść między prawdą a zmyśleniem zaczęła się zwiększać.

Kto czyta, ten nie kończy

Ile osób naprawdę czyta do końca książki? Temat postanowił zgłębić Jordan Ellenberg, matematyk z University of Wisconsin. Czytając książki przy użyciu Kindle, można zaznaczać w nich ulubione fragmenty. Ile czytelników tyle punktów widzenia, więc tzw. popular highlights powinny być rozrzucone po całej książce, jeśli przeczytają ją do końca.

Ellenberg brał pod uwagę pięć fragmentów najbardziej wyróżnionych na Kindle. Biorąc pod uwagę masowość narzędzia, można otrzymać przegląd najczęściej niedoczytanych książek.
Jeśli statystycznie przebrną tylko przez pierwszy rozdział, wówczas wyróżnione fragmenty znajdą się tylko w nim. Dzieląc liczbę najczęściej przeczytanych stron przez długość książki, dowiemy się, jaka jej część została przeczytana.

Ellenberg nazwał swoją metodę indeksem Hawkinga. To hołd na cześć Stephena Hawkinga, autora bestselleru Krótkiej historii czasu. To jedna z tych pozycji, którą każdy ma na półce, ale jej indeks to 6,6 proc. Szeroko dyskutowany i liczący 700 stron Kapitał w dwudziestym pierwszym wieku francuskiego ekonomisty Thomasa Piketty'ego ma indeks 2,4 proc. Bestsellerowe Pułapki myślenia Daniela Kahnemana 6,8 proc., a głośna książka Lean In napisana przez Sheryl Sandberg z Facebooka 12,3 proc.

Na marginesie, nie od dziś wiadomo, że aby prowadzić inteligentną rozmowę o książkach, nie trzeba ich czytać od deski do deski. Przekonuje o tym z wdziękiem francuski literaturoznawca Pierre Bayard w książce Jak rozmawiać o książkach których się nie czytało? Indeksu Hawkinga dla tej książki niestety jednak nie znamy.

Prawda ma początek w kłamstwie

W 1950 roku naukowcy przeprowadzili ankietę wśród mieszkańców amerykańskiego Denver. Pytali ich, czy, głosują, czy wspierają organizacje charytatywne i czy posiadają kartę biblioteczną. Równocześnie zajrzeli do oficjalnych źródeł, aby mieć dane porównawcze. Rozbieżność między deklaracjami a stanem faktycznym zaskoczyła badaczy. - Wiele osób nie ujawnia w ankietach wstydliwych zachowań i myśli. Chcą dobrze wypaść, mimo że większość ankiet jest anonimowa. Jest to tzw. efekt społecznych oczekiwań (social desirability bias) - pisze Seth Stephens-Davidowitz w książce Everybody Lies. What the Internet Can Tell Us About Who We Really Are. Autor jest absolwentem Harvardu, ma doktorat z ekonomii, pracował w Google.

Dziś, gdy elementem naszej tożsamości jest wizerunek budowany przez media społecznościowe, potrzeba zaprezentowania idealnej wersji siebie jest dziś silniejsza niż kiedykolwiek w historii.

Dlatego wszyscy kłamią. Ludzie okłamują przyjaciół, współpracowników, lekarzy i samych siebie - przekonuje Seth Stephens-Davidowitz. Odbiciem i archiwum prawdziwych pragnień, przekonań i uprzedzeń jest internet. Dlatego nagiej prawdy o człowieku szukał analizując zapytania w wyszukiwarkach internetowych, serwisach społecznościowych, randkowych czy pornograficznych.

Jego zdaniem wyszukiwania Google są najważniejszym zbiorem danych, jaki kiedykolwiek zebrano na temat ludzkiej psychiki. Internet nazywa cyfrową szczepionką prawdy (digital truth serum). - Prawda ma początek w kłamstwie - powiedział w 14 minucie pierwszego odcinka dr House.

Freud byłby zachwycony

Podczas pracy nad książką Stephensa-Davidowitza zaskoczyło to, że ludzie są bardziej zainteresowani seksem niż myślał. Z wyjątkiem Brytyjczyków, którzy częściej tylko szukają informacji o pogodzie - żartował na jednym z wystąpień TED.

Mężczyźni zadają więcej pytań jak powiększyć penisa niż jak zrobić omlet, nastroić gitarę czy wymienić oponę. O tę część ciała pytają częściej niż o wszystkie inne organy razem wzięte. Na jedno pytanie dotyczące mózgu przypada 25 zapytań o przyrodzenie. Faceci pytają: jak duży jest mój penis? Ale skąd Google ma to wiedzieć? - pyta retorycznie autor.

Zachowanie mężczyzn ujawnia kulturowe różnice, gdy na przykład dowiadują się, że żona jest w ciąży. W Meksyku przyszły ojciec pyta wyszukiwarkę o słowa miłości lub wiersze dla ciężarnej żony. W USA szuka odpowiedzi na pytanie: moja żona jest w ciąży, co teraz? Moja żona jest w ciąży, co mam zrobić?

Gdyby nie analiza zapytań w wyszukiwarkach nie przyszłoby nam do głowy, co naprawdę interesuje ludzi. Podczas dorocznego orędzia o stanie państwa (State of the Union Address) wygłoszonego przez Baracka Obamę przed Kongresem w 2014, ludzie szukali informacji o jego wzroście, albo próbowali ustalić kim jest siedzący za nim człowiek i dlaczego nosi zielony krawat (chodziło o Johna Boehnera, spikera w Izbie Reprezentantów).

Kobiety opisując swoich mężów na Facebooku używają najczęściej słów: najlepszy przyjaciel, niezwykły, fantastyczny, wspaniały i atrakcyjny. Gdy przełączają się na Google, mąż jest: gejem, głupkiem, niezwykły, irytujący, wredny. - Nie porównuj swoich pytań w Google z postami innych ludzi na Facebooku - ostrzega Seth Stephens-Davidowitz.

Pięćdziesiąt twarzy Greya

Gdy w 1854 roku w Londynie trwała epidemia cholery, lekarz John Snow chciał się dowiedzieć, co było jej przyczyną. W tym celu postanowił zebrać informację o każdym przypadku choroby w mieście i zaznaczył go na mapie. Genialny w swojej prostocie krok związany z uporządkowaniem i wizualizacją danych (dziś tym zajmuje się tzw. data journalism) doprowadził go do zaskakującego odkrycia. Przypadki choroby koncentrowały się wokół pompy wodnej na Broad Street w dzielnicy Soho.

Ówczesne metody analizy wody nie potwierdzały tej tezy, ale dla Snowa przekonujący był wzorzec zachorowań i śmierci. Wówczas sądzono, że choroba rozprzestrzeniała się przez tzw. morowe powietrze, a Snow odkrył, że przyczyną była zakażona bakteriami woda. Ten analogowy przykład pokazuje, że nie zawsze potrzeba wielu danych, aby dokonać trafnej obserwacji. Potrzebne są właściwe dane.

Seth Stephens-Davidowitz wymienia cztery główne zalety big data. Przede wszystkim to uczciwe dane na tematy, o których ludzie nie mówią prawdy. Po drugie, umożliwia przeprowadzenie kontrolowanych eksperymentów na dużą skalę przy minimalnych kosztach, i odkrycie związków przyczynowych. Po trzecie, duża ilość danych daje dostęp do małych podzbiorów ludzi w sposób, który wcześniej był niemożliwy. Po czwarte, dostarcza nowych rodzajów danych.

Pionierem w podejściu do danych jest Netflix. O rozbieżności między deklaracjami a decyzjami przekonał się, gdy pierwotnie umożliwiał widzom dodawanie do kolejki filmów, które planowali zobaczyć. Mimo że otrzymywali przypomnienia rzadko w nie klikali. Ludzie, dodając do kolejki ambitne filmy sami siebie oszukiwali. Platforma dawno porzuciła stereotypową analizę zachowań odbiorców w podziale przebiegającym wg wieku, płci czy kraju pochodzenia. Analizując zachowanie milionów klientów zidentyfikował około 2000 kategorii (taste clusters). Możemy nazwać je niszami lub mikro-społecznościami, które wykazują podobne zachowania. W efekcie Netflix zbudował algorytmy z rekomendacjami opartymi o to, co widzieli oni i miliony podobnych im widzów. Ten unikatowy ekosystem danych i tworzenia treści w oparciu o zaawansowaną analitykę tygodnik The Economist nazwał netfliksonomią (Netflixonomics).

Na zakończenie wróćmy do indeksu Hawkinga. Zagadką może być wynoszący zaledwie 25,9 proc. indeks dla powieści Pięćdziesiąt twarzy Greya, przełożonej na 52 języki i sprzedanej w milionach egzemplarzy. Jak przytomnie ktoś zauważył, przyczyną może być po prostu mało fragmentów, które w tej książce są warte zaznaczenia. Dlatego, chociaż indeks Hawkinga jest sprytną metodą analizy, warto mieć do niego dystans i przyjmować dodatkowe założenia.

Dr House stawiał robocze hipotezy na bazie diagnozy, know-how i konsultacji z zespołem. Kierunek leczenia wytyczyły jednak wyniki badań i dane, które potrafi pozyskiwać w niekonwencjonalny sposób. Bo ponoć nie wszystko, co da się policzyć, się liczy, i nie wszystko, co się liczy, da się policzyć. Kto to powiedział i czy to jest prawda? Chyba, trzeba poszukać w Google.

POWRÓT DO BLOGA