Pandas 기본 조작 사용하기

Machine Learning/pandas

Pandas 기본 조작 사용하기

CoderHan 2023. 5. 13. 18:57

print(mydata_frame)

temperature  activity
0            0         3
1           10         7
2           20         9
3           30        14
4           40        15

print(my_dataframe)

temperature  activity
0            0         3
1           10         7
2           20         9
3           30        14
4           40        15

구글코랩에서 사용하는 pandas는 jupyter기반으로 동작하는 파이썬 데이터처리 라이브러리다.

데이터분석이나 머신러닝에서도 잘 쓰이므로 공부해놓으면 좋을 것 같다.

데이터 처리 과정을 사내에서 들은 적이 있는데 그때 간단하게 pandas와 numpy그리고 mapplot까지 써봤는데

기본기가 없어서 데이터를 추가하거나 삭제하는 것마저 구글검색으로 해결했었다

그래서 이번 기회에 코랩에 있는 튜토리얼로 기본적인 내용을 정리해볼 생각이다!

import numpy as np
import pandas as pd

우선 numpy와 pandas를 import해준다. 사용할 땐 각각 np와 pd로 쓰면 된다.

numpy는 행렬이나 일반적으로 대규모 다차원 배열을 쉽게 처리할 수 있도록 지원하는 파이썬의 라이브러리이다.

같이 쓰면 도움되니까 알아두시기를~^.^

#Numpy를 이용해 5X2 배열을 생성하여 my_data에 할당한다.
my_data = np.array([[0, 3], [10, 7], [20, 9], [30, 14], [40, 15]])

#column으로 사용할 속성 temperature와 activity를 가진 배열을 my_column_names에 할당한다.
my_column_names = ['temperature', 'activity']

#위에서 정의한 data와 column을 속성으로 하는 Dataframe을 pandas를 이용해 생성한다
my_dataframe = pd.DataFrame(data=my_data, columns=my_column_names)

이렇게 정의한 my_dataframe을 출력하면

아래와 같은 결과를 얻을 수 있다.

 temperature  activity
0            0         3
1           10         7
2           20         9
3           30        14
4           40        15

맨 앞줄에 있는 index는 자동으로 생성되었는데 이것도 setIndex나 hideIndex같은 속성으로 없애거나 바꿀 수 있지만

지금은 별로 중요하지 않으니까 나중에 하기로 한다.

위에서 만든 데이터프레임에 새로운 속성은 어떻게 추가할까?

#[]안에 원하는 속성이름을 기입하고 값을 할당해주면 된다.
#여기서는 activity의 값에 2를 더한 값을 adjusted로 사용하기 위해 넣어줬다
my_dataframe["adjusted"] = my_dataframe["activity"] + 2

이제 다시 my_dataframe을 출력하면

temperature  activity  adjusted
0            0         3         5
1           10         7         9
2           20         9        11
3           30        14        16
4           40        15        17

이런 Dataframe을 얻을 수 있다.

특정 data를 추출하는 법을 알아보자

df.head(n) : 위에서부터 n개만큼 추출한다

df.iloc[[2]] : index가 2인 행을 추출한다

df.[1:4] : 1번째 행부터 4-1개를 추출한다

df.['temperature'] : temperature에 해당하는 열을 추출한다

Rows #0, #1, and #2:
   temperature  activity  adjusted
0            0         3         5
1           10         7         9
2           20         9        11 

Row #2:
   temperature  activity  adjusted
2           20         9        11 

Rows #1, #2, and #3:
   temperature  activity  adjusted
1           10         7         9
2           20         9        11
3           30        14        16 

Column 'temperature':
0     0
1    10
2    20
3    30
4    40
Name: temperature, dtype: int64

위 순서대로 print하면 이런 결과를 얻을 수 있다.

기본적인 사용법은 여기까지~!

저작자표시 변경금지