Każda wizualizacja powinna opowiadać historię ukrytą w danych
Niestety często jest tak, że to my staramy się interpretować dane, opowiadać owe tytułowe historie. Najczęściej plączemy się wtedy, zgadujemy, bardziej lub mniej przypadkowo wprowadzamy w błąd słuchających lub oglądających nas, konfudujemy ich, zamiast pozwolić wykresom jasno i klarownie przedstawić to, co kryje się za danymi. Jednym z aspektów pomagających wizualizacjom mówić, jest właściwe połączenie typu danych ze sposobem ich pokazania.
We wczesnych latach 40tych ubiegłego wieku Stanley Smith Stevens - psycholog pracujący na Harvardzie - stworzył nowe określenia (nominal, ordinal, interval i ratio) dla opisania hierarchii skal pomiarów używanych w psychofizyce i sklasyfikował procedury określające skale, dla których są one dozwolone.
Taksonomia ta przez niektórych statystyków była krytykowana, a przez innych zaadopotowana i stosowana w kolejnych pracach naukowych, a także w praktyce.
Z powodzeniem można ją wykorzystać do określenia najlepszych sposobów wizualizacji danych.
Dane, które chcemy prezentować, mogą być ilościowe lub jakościowe.
Ilościowe dane to:
- Typ Ratio, czyli dane, na których można przeprowadzić działania arytmetyczne. Mogą to być ceny, ilości sztuk produktów.
- Typ Interval, czyli dane, które mają wartości, ale nie można przeprowadzić na nich sensownych działań arytmetycznych. Na przykład godziny rozpoczęcia wydarzeń, odczyty prędkości wiatru. W tym przypadku nie ma sensu sumować godzin rozpoczęcia wydarzeń lub odczytów prędkości wiatru, ale można wyznaczyć godzinę najwcześniejszego i najpóźniejszego wydarzenia lub najniższą/najwyższą prędkość.
Jakościowe dane to:
- Typ Ordinal, czyli dane, które można ułożyć w kolejności, ale nie można określić odległości pomiędzy nimi. Przykładem mogą być rozmiary S, M, L, XL. Spodnie w rozmiarze L w Polsce są większe niż spodnie w rozmiarze L w Chinach, ale nie wiadomo, jaka dokładnie jest to różnica.
- Typ Nominal, czyli dane, które mają różne wartości, ale nie można ich uporządkować – na przykład rodzaje dyscyplin sportowych: koszykówka, siatkówka, piłka nożna, piłka ręczna.
Do tych klasyfikacji w odpowiedni sposób należy dobrać metody agregacji i wizualizacji. Na przykład dane typu Ordinal powinny być sortowane nie alfabetycznie, ale porządkowo. Takich rekomendacji jest więcej. Spójrzmy na poniższą tabelę.
Pamiętajmy o właściwym wizualizowaniu specyficznych rodzajów danych tak, żeby dobrze opowiedziały historię ukrytą w danych.