Porady. Pandas. Python. Django. Microsoft Power BI. Tableau.

Pandas. Usuwanie duplikatów z DataFrame

08.2022 | pandas | Pandas | Usuwanie duplikatów

Usuwanie duplikatów pozwala zliczyć rekordy unikalne w tablicy DataFrame np. ilość unikalnych produktów nabywanych przez klientów w danym miesiącu.

Usunięcie duplikatów jest możliwe dzięki metodzie .drop_duplicates().

Ogólna forma tej metody to .drop_duplicates(subset=['kolumna1'],['kolumna2'],...).

A zatem argument metody podajemy w formie tablicy o nazwie subset=[ ] i są to nazwy kolumn, w których poszukujemy duplikatów.

Przykład zastosowania znajduje się w poniższym arkuszu:

Wdrażam rozwiązania analityczne, buduję raporty zarządcze i pomagam zrozumieć dane.

Korzystam z Google Marketing Cloud, Microsoft Power BI, Google Cloud oraz Python.

Pracowałem m.in. dla Credit Suisse, Phonak, Hansaton, Unitron, Nestle, IBM, Play.

Jestem współtwórcą grupy Hexe Capital SA.

Zapraszam do lektury i współpracy.

Krzysztof Surowiecki

Chcę porozmawiać o współpracy →

Moje certyfikaty