Machine Learning/pandas

pandas 데이터프레임 함수 살펴보기

CoderHan 2023. 8. 16. 20:46
반응형

pandas에서 데이터를 불러오고 dataframe으로 저장하여
데이터를 살펴보는 작업을 해보겠습니다.

 

데이터 불러오기

첫 번째 줄에서 pandas를 import하고 as pd를 사용함으로써 pandas를 사용할 때 전부 입력하지 않고

pd만 입력해서 사용할 수 있도록 해줍니다.

 

pd.read_csv("file_location")은 우리가 가지고 있는 .csv파일을 읽어오는 함수입니다.

현재 보기에서 jupyter 내 경로와 파일이 위치한 경로가 같기 때문에 파일명만 입력한것이고

파일 경로를 입력해주어야 정상적으로 동작합니다.

 

3,4번째 코드는 불러온 .csv를 titanic이라는 변수에 할당하여 titanic만 출력해도 데이터프레임이

출력되는 모습입니다.

 

데이터 살펴보기

 

.head()함수는 상위에 위치한 데이터를 보여줍니다,

괄호 안에 아무 숫자가 없으면 기본값인 5개를 보여주고 숫자를 넣으면 넣은 숫자만큼 보여줍니다.

.head와 반대로 .tail()은 아래에 위치한 데이터를 보여줍니다.

마찬가지로 숫자가 없으면 5개, 숫자를 넣으면 넣은 숫자만큼 갯수를 보여줍니다.

 

데이터 정보

.info와 .describe를 이용하면 위와 같은 정보를 얻을 수 있다.

info는 col별 갯수와 null의 관한 정보를 얻을 수 있다.

데이터가 891개인데 age는 714개인걸 보면 이 차이값이 Null값임을 알 수 있다.

반응형