안녕하세요! 이번에는 Pandas DataFrame에서 중복된 데이터를 쉽게 확인하는 방법을 소개하려고 합니다. 데이터 분석이나 처리 작업 중에 중복된 데이터가 있는지 확인하고 싶을 때가 자주 있는데요. 간단한 코드 한줄로 확인하는 법을 알아보겠습니다.
중복 데이터 필터링 코드
예제 DataFrame을 사용하여 중복 데이터를 필터링하는 코드입니다. Pandas의 duplicated() 메서드를 활용하여 특정 열을 기준으로 중복된 데이터를 확인할 수 있습니다.
import pandas as pd
# 예시 DataFrame
data = {
'column1': [1, 2, 2, 3, 4, 4, 5],
'column2': ['A', 'B', 'B', 'C', 'D', 'D', 'E']
}
df = pd.DataFrame(data)
# 중복 데이터 필터링 (중복 기준 열 지정 가능)
duplicates = df[df.duplicated(keep=False)]
print(duplicates)
- df.duplicated():DataFrame의 중복된 데이터 찾기
- keep=False: 중복된 모든 행 표시
특정 열을 기준으로 중복 확인하기
duplicated() 메서드에 subset 매개변수를 사용하면 특정 열을 기준으로 중복된 데이터를 확인할 수 있습니다.
# column1을 기준으로 중복 데이터 확인
duplicates_by_column1 = df[df.duplicated(subset='column1', keep=False)]
print(duplicates_by_column1)
중복된 데이터를 확인하고 싶을 때 duplicated()를 쓰면 된다는 건 알고 있었는데, 제가 잘 기억이 나도록 한번 정리하면 좋겠다고 생각했던 코드입니다. 필요하신 분들에게 도움이 되면 좋겠습니다. 오늘도 읽어주셔서 감사합니다.