본문 바로가기

Basic/[Pytohn] Numpy, Pandas

(3)
[pandas] 결측치 확인, 제거 데이터를 확인할 때 결측치가 있는지 꼭 확인해주어야 한다. 결측치 관련 함수를 살펴보자. 간단한 데이터셋을 만들어준다. import pandas as pd import numpy as np # create a DataFrame with missing values df = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, np.nan, 8], 'C': [9, 10, 11, 12]}) 1. 결측치 확인 : isna(), isnull() 두 함수의 기능은 동일하다. 결측치인 경우 True, 결측치가 아닌 경우 False를 반환해준다. df.isnull() #df.isna() 참고) notnull() 위의 두 함수와는 반대로 결측치가 아닌 경우에 True, 결측치..
[pandas] 데이터 타입 관련_dtypes, astype(), to_numeric 데이터 전처리할 때, 범주형 데이터와 수치형 데이터를 구분해주고 적절하게 처리해주는 과정이 필요하다. 이 때 사용하는 여러 데이터 타입 관련 함수를 알아보자. 간단한 데이터셋을 만들어준다. (오늘도 열일하는 chatGPT) import pandas as pd data = {'name': ['John', 'Mary', 'Sara', 'David', 'Peter'], 'age': [25, 30, 35, 40, 45], 'city': ['New York', 'San Francisco', 'Boston', 'Chicago', 'Miami'], 'salary': ['2500', '3000', '3500', '4000', '4500']} df = pd.DataFrame(data) df 습관처럼 사용해주는 info(..
[pandas] 중복값 제거_duplicated() , drop_duplicates() 데이터를 정제하고 살펴보는 과정에서, 중복값이 있는지 확인하고 있다면 제거해야한다. 이 때 사용하는 duplicated()와 drop_duplicates() 함수를 살펴보자 https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html pandas.DataFrame.duplicated — pandas 1.5.3 documentation Only consider certain columns for identifying duplicates, by default use all of the columns. pandas.pydata.org 간단한 데이터셋을 만들어준다. chatGPT한테 물어보면 안되는게 없는 세상이다. import pa..