08.2022 | pandas | Pandas | Usuwanie duplikatów
Usuwanie duplikatów pozwala zliczyć rekordy unikalne w tablicy DataFrame np. ilość unikalnych produktów nabywanych przez klientów w danym miesiącu.
Usunięcie duplikatów jest możliwe dzięki metodzie .drop_duplicates()
.
Ogólna forma tej metody to .drop_duplicates(subset=['kolumna1'],['kolumna2'],...)
.
A zatem argument metody podajemy w formie tablicy o nazwie subset=[ ]
i są to nazwy kolumn, w których poszukujemy duplikatów.
Przykład zastosowania znajduje się w poniższym arkuszu:
Wdrażam rozwiązania analityczne, buduję raporty zarządcze i pomagam zrozumieć dane.
Korzystam z Google Marketing Cloud, Microsoft Power BI, Google Cloud oraz Python.
Pracowałem m.in. dla Credit Suisse, Phonak, Hansaton, Unitron, Nestle, IBM, Play.
Jestem współtwórcą grupy Hexe Capital SA.
Zapraszam do lektury i współpracy.
Krzysztof Surowiecki
Chcę porozmawiać o współpracy →Moje certyfikaty