Blog Analityczny. Narzędzia. Techniki. Rozwiązania Analityczne.

Miary centralne w analizie danych e-commerce: praktyczne zastosowanie w DAX (Power BI)

09.2024 | dax | miary centralne | power bi

Artykuł stanowi kontynuację tematu, związanego z miarami centralnymi, rozpoczętą w artykule:

=> Miary centralne w analizie danych e-commerce: praktyczne zastosowanie w Pythonie i SQL

Niniejszy artykuł skupia się na części praktycznej, związanej z wyliczeniem miar centralnych w środowisku Microsoft Power BI, z wykorzystaniem składni DAX.

W kolejnych punktach pokazujemy wyliczenie klasycznej średniej arytmetycznej, mediany oraz mody.


1. Średnia arytmetyczna

Średnia arytmetyczna to suma wszystkich wartości podzielona przez liczbę obserwacji. Jest użyteczna w określaniu przeciętnej wartości w zbiorze danych.

Przykład 1:

Załóżmy, że mamy tabelę z wartościami zamówień w naszym sklepie e-commerce. Aby obliczyć średnią wartość zamówienia, możemy utworzyć miarę w Power BI, korzystając z funkcji AVERAGE.

Średnia Wartość Zamówienia = AVERAGE('Zamówienia'[Kwota Zamówienia])

Przykład 2:

Obliczenie średniego czasu spędzanego przez użytkowników na naszej stronie, przed dokonaniem zakupu:

Średni Czas Na Stronie = AVERAGE('Dane Strony'[Czas Na Stronie])


2. Mediana

Mediana to wartość środkowa w uporządkowanym zbiorze danych. Jest szczególnie przydatna, gdy mamy do czynienia z danymi, które zawierają wartości odstające, ponieważ mediana nie jest na nie wrażliwa.

Przykład 1:

W DAX możemy obliczyć medianę, używając funkcji MEDIAN. Przykład obliczenia mediany wartości zamówień wygląda następująco:

Mediana Wartości Zamówienia = MEDIAN('Zamówienia'[Kwota Zamówienia])

Przykład 2:

Teraz obliczmy medianę dla czasu spędzanego przez użytkowników, na naszej stronie www, przed dokonaniem zakupu:

Mediana Czasu Na Stronie = MEDIAN('Dane Strony'[Czas Na Stronie])


3. Moda

Moda to wartość, która występuje najczęściej w zbiorze danych. W e-commerce może to być na przykład najczęściej wybierana kwota zakupu. DAX niestety nie ma wbudowanej funkcji typu MODE, ale można stworzyć modę za pomocą bardziej zaawansowanego wyrażenia.

Przykład 1:

Aby obliczyć mode w DAX, możemy użyć kombinacji funkcji GROUPBY i MAXX, aby znaleźć wartość, która pojawia się najczęściej:

Najczęstsza Kwota Zamówienia =
VAR GroupedData =
    ADDCOLUMNS(
        SUMMARIZE('Zamówienia', 'Zamówienia'[Kwota Zamówienia]),
        "Liczba", COUNTX(FILTER('Zamówienia', 'Zamówienia'[Kwota Zamówienia] = EARLIER('Zamówienia'[Kwota Zamówienia])), 'Zamówienia'[Kwota Zamówienia])
    )
RETURN
MAXX(
    TOPN(1, GroupedData, [Liczba], DESC),
    'Zamówienia'[Kwota Zamówienia]
)

Ten kod zwróci najczęstszą kwotę zamówienia (mode) w zestawie danych.

Zobaczmy teraz na drugi przykład, który pokazuje przypadek obliczenia mody dla czasu spędzanego przez użytkowników na stronie www, przed dokonaniem zakupu:

Przykład 2:

Najczęstszy Czas Na Stronie =
VAR GroupedData =
    ADDCOLUMNS(
        SUMMARIZE('Dane Strony', 'Dane Strony'[Czas Na Stronie]),
        "Liczba", COUNTX(FILTER('Dane Strony', 'Dane Strony'[Czas Na Stronie] = EARLIER('Dane Strony'[Czas Na Stronie])), 'Dane Strony'[Czas Na Stronie])
    )
RETURN
MAXX(
    TOPN(1, GroupedData, [Liczba], DESC),
    'Dane Strony'[Czas Na Stronie]
)


OK. Ale pytacie się w listach, którą miarę centralną mam wybrać. Spróbujmy odpowiedzieć na to pytanie.


Kiedy wybrać którą miarę centralną?

Wybór odpowiedniej miary centralnej zależy od charakteru danych i celu analizy:

  1. Średnia arytmetyczna:
    • Najlepsza dla danych o rozkładzie symetrycznym, bez znaczących wartości odstających.
    • Przydatna, gdy chcemy uwzględnić wszystkie wartości w zbiorze danych.
    • Przykład: Średnia wartość zamówienia w sklepie e-commerce.
       
  2. Mediana:
    • Idealna dla danych z wartościami odstającymi lub o rozkładzie skośnym.
    • Odporna na ekstremalne wartości.
    • Przykład: Mediana czasu ładowania samochodów elektrycznych.
       
  3. Moda:
    • Najlepsza dla danych kategorialnych lub dyskretnych.
    • Przydatna do identyfikacji najczęstszych wartości.
    • Przykład: Najpopularniejsza kwota zamówienia w sklepie.


Wizualizacja w Power BI

W Power BI można te miary z łatwością wizualizować na wykresach lub w tabelach. Na przykład, możemy utworzyć wykres rozrzutu pokazujący relację między czasem spędzonym na stronie a wartością zakupu, a także dodać linie pomocnicze, reprezentujące średnią, medianę i modę:

  1. Tworzymy wykres rozrzutu, używając pola Czas Na Stronie na osi X i Wartość Zakupu na osi Y.
  2. Następnie dodajemy linie trendu dla średniej, mediany i mody, korzystając z odpowiednich miar utworzonych wcześniej.


Wnioski

Miary centralne są nieocenionymi narzędziami w analizie danych e-commerce. Dzięki nim możemy:

  1. Zrozumieć typowe zachowania klientów (np. średni czas spędzony na stronie).
  2. Identyfikować najczęstsze wartości (np. najpopularniejsza kwota zakupu).
  3. Analizować trendy i odstępstwa od normy.

Każda z tych miar ma swoje zalety i ograniczenia. Średnia jest wrażliwa na wartości skrajne, podczas gdy mediana jest bardziej odporna. Moda może być szczególnie użyteczna dla danych kategorialnych lub dyskretnych. Najlepsze rezultaty osiągniemy, stosując je w połączeniu, analizując dane w kontekście specyficznych potrzeb biznesowych.

Potrzebujesz wsparcia analitycznego?

Napisz do mnie poprzez formularz kontaktowy.