08.2022 | pandas | Pandas | Usuwanie duplikatów
Usuwanie duplikatów pozwala zliczyć rekordy unikalne w tablicy DataFrame np. ilość unikalnych produktów nabywanych przez klientów w danym miesiącu.
Usunięcie duplikatów jest możliwe dzięki metodzie .drop_duplicates()
.
Ogólna forma tej metody to .drop_duplicates(subset=['kolumna1'],['kolumna2'],...)
.
A zatem argument metody podajemy w formie tablicy o nazwie subset=[ ]
i są to nazwy kolumn, w których poszukujemy duplikatów.
Przykład zastosowania znajduje się w poniższym arkuszu:
Wspieram firmy w transformacji na model działania oparty o dane. Wdrażam i wyciągam rekomendacje, płynące z danych.
Korzystam z Google Marketing Cloud, Google Cloud Platform, Tableau, Microsoft Power BI oraz Python i R.
Posiadam certyfikat Google Analytics 4 i Tableau Certified Professional, doświadczenie akademickie oraz 20-lat doświadczenia biznesowego.
Jestem Co-Founderem spółek: Hexe Capital SA, Cut2Code, Boostsite, KODA, Insightland.
Zapraszam. Krzysztof Surowiecki
Więcej o mnie WspółpracaMoje certyfikaty