-
pandas 데이터 소계 및 합계, 정보, 요약, 정렬 알아보기Machine Learning/pandas 2023. 8. 18. 21:14반응형
오늘은 describe, sort, value_counts등 다양한 함수를 사용하여
내가 불러온 데이터에서 어떤 정보를 얻을 수 있는지 알아봅시다.
오늘 공부를 위해 사용할 cars data입니다.
cars에 .으로 mpg열에 접근하여 copy함수로 복사한 뒤 mpg라는 변수에 할당해줍니다.
이를 출력해보면 mpg는 rangeIndex로 정렬되어있는 형태임을 알 수 있습니다.
describe함수를 출력하면 전체 갯수를 의미하는 count, 평균값인 mean, 최소값 등 다양한 값을 알 수 있습니다.
max()함수로 최대값을 출력할 수 있습니다. 이게 된다면 min, std, mean등 다 된다는 말이겠죠?
그리고 우리가 추출한 열에 중복된 값의 갯수를 각각 구하고 싶을 때 value_counts를 사용하면 됩니다.
그리고 해당 값의 갯수를 전체에서 비중이 얼마나 되는지 알고싶다면 value_counts안에
normalize파라미터를 True로 설정해주면 됩니다.
데이터를 정렬하고 싶을 때는 sort_values함수를 사용해주면 됩니다. 오름차순으로 정렬되는 걸 보니
이게 기본값임을 알 수 있습니다. 반대로 내림차순으로 정렬하고 싶을 때 asscending파라미터를 이용하면 됩니다.
그리고 위에서 사용한 inplace는 원본 데이터에도 덮어씌울건지 여부를 묻는 파라미터입니다. 이를 True로
설정해주면 원본 데이터의 값이 바뀌게 됩니다.
우리가 위에서 배운 내용들은 비단 숫자를 데이터로 가지는 열에만 해당하는 것이 아닙니다.
origin열은 원산지를 표기하는 문자열 데이터입니다만 위에서 사용했던 모든 함수들을 사용할 수 있습니다.
다른점은 describe에서 unique와 가장 많은 갯수를 나타내는 top, top이 몇개인지 나타내는 freq정도가 있겠네요
반응형'Machine Learning > pandas' 카테고리의 다른 글
pandas 데이터 프레임 열 추가 삭제 필터링 하기 (0) 2023.08.23 pandas 인덱스 다루기 (0) 2023.08.19 pandas iloc,loc을 이용한 데이터에 접근하기 (0) 2023.08.17 pandas 데이터프레임 함수 살펴보기 (0) 2023.08.16 pandas에서 유용한 jupyter 단축키 모음 (0) 2023.08.15