파이썬을 사용하여 데이터를 불러오고 조건을 설정하여 데이터를 필터링하는 방법을 알아보도록 하겠습니다.
CSV 파일 불러오기
df = pd.read_csv('tips.csv')
Jupyter Notebook을 사용하는 경우, 불러오고자 하는 CSV 파일이 Jupyter Notebook 파일과 같은 폴더에 있도록 해주세요.
df라고 이름을 지정하고 "tips"라는 csv 파일을 불러옵니다.
단일 조건 지정
df[df['total_bill']>30]
df['total_bill']>30는 불러온 데이터에서 total_bill이 30보다 큰 행만 가져온다는 뜻입니다. 실제로 해당 행만 불러온 데이터에서 가져오기 위해 df[df['total_bill']>30]와 같이 df (불러온 데이터)를 한번 더 입력합니다.
df[df['sex'] == 'Male']
두 번째 예시는 sex가 male인 행만 불러온 데이터에서 가져옵니다.
복수 조건 지정 &
df[(df['total_bill'] > 30) & (df['sex']=='Male')]
복수 조건을 모두 만족하는 행을 찾을 때는 & 기호를 사용하며 각 조건은 ( )를 사용하여 구별합니다. 위의 예시는 total_bill이 30보다 크고 sex가 male인 행을 가져옵니다.
복수 조건 지정 ~, !=
df[(df['total_bill'] > 30) & ~(df['sex']=='Male')]
df[(df['total_bill'] > 30) & (df['sex']!='Male')]
특정 조건을 만족하지 않는 행을 찾을 때는 ~ 또는 != 기호를 사용합니다. 각 기호의 위치를 꼭 확인해 주세요. 위의 예시는 모두 total_bill이 30보다 크고 sex가 male이 아닌 행을 가져옵니다.
복수 조건 지정 I
df[(df['day'] =='Sun') | (df['day']=='Sat')]
복수의 조건 중 하나라도 만족하는 행을 찾을 때는 | (or)를 사용합니다. 위의 예시는 day가 sun 또는 sat인 행을 가져옵니다.
복수 조건 지정 isin( )
df[df['day'].isin(['Sat','Sun'])]
데이터 필터링을 위해 조건을 지정할 때 isin( ) 함수를 사용하면 조건을 좀 더 쉽게 설정할 수 있습니다. 먼저 df['day'].isin(['Sat','Sun'])은 불러온 데이터에서 day가 sat이나 sun인 행을 가져온다는 뜻입니다. 실제로 불러온 데이터에서 특정 행을 가져오기 위해 df[df['day'].isin(['Sat','Sun'])]와 같이 앞에 df를 붙여줍니다.
'데이터 분석' 카테고리의 다른 글
Pandas Apply 함수 (2) (0) | 2024.01.13 |
---|---|
Pandas Apply 함수 (1) (1) | 2024.01.13 |
Pandas DataFrames 기본 Indexing (Rows) (0) | 2024.01.08 |
Pandas DataFrames 기본 Indexing (Columns) (0) | 2024.01.08 |
MySQL로 온라인 스토어 광고 성과 분석 (0) | 2023.10.29 |