Machine Learning
-
pandas 데이터프레임 함수 살펴보기Machine Learning/pandas 2023. 8. 16. 20:46
pandas에서 데이터를 불러오고 dataframe으로 저장하여 데이터를 살펴보는 작업을 해보겠습니다. 데이터 불러오기 첫 번째 줄에서 pandas를 import하고 as pd를 사용함으로써 pandas를 사용할 때 전부 입력하지 않고 pd만 입력해서 사용할 수 있도록 해줍니다. pd.read_csv("file_location")은 우리가 가지고 있는 .csv파일을 읽어오는 함수입니다. 현재 보기에서 jupyter 내 경로와 파일이 위치한 경로가 같기 때문에 파일명만 입력한것이고 파일 경로를 입력해주어야 정상적으로 동작합니다. 3,4번째 코드는 불러온 .csv를 titanic이라는 변수에 할당하여 titanic만 출력해도 데이터프레임이 출력되는 모습입니다. 데이터 살펴보기 .head()함수는 상위에 위치..
-
pandas에서 유용한 jupyter 단축키 모음Machine Learning/pandas 2023. 8. 15. 19:30
판다스에서 사용하는 유용한 단축키들을 정리해볼건데요 매우 많이 쓰게 될 예정이니 알아두시면 좋을겁니다 1. 셀 실행하기 - Run버튼을 누르면 해당 셀이 실행됩니다 - Shift + Enter를 누르면 해당 셀을 실행하고 커서가 아래 칸으로 이동합니다. 만약 마지막 칸이라면 새로운 셀을 생성합니다 - Alt+ Enter를 누르면 해당 셀을 실행하고 실행한 셀 아래 새로운 셀을 생성하며 생성된 셀로 커서가 이동합니다. - Ctrl+Enter를 누르면 해당 셀을 실행하고 머무르게 됩니다. 2. 제목 작성하기 사진에서 보시는 것처럼 markdown으로 바꾸면 글을 작성할 수 있습니다 #을 이용하여 띄어쓰기한 후에 내용을 적으면 됩니다. 위 셀들을 실행하면 아래와 같은 결과를 얻습니다. *위 사진에 셀에 왼쪽에..
-
분류Machine Learning/기본개념 2023. 5. 25. 14:15
분류는 말그대로 분류이다. 입력을 우리가 지정한 클래스로 분류하는 작업이다. 확률 출력에 로지스틱 회귀를 사용하는 경우도 있지만 분류를 사용하는 경우도 있다. 분류의 성능을 평가하는 방법은 정확성과 정밀도가 있다. 분류에도 결함이 있는데 문제의 클래스 불균형이 존재할 때 오류가 발생한다. 예를들어 광고클릭률을 분류하는 모델이 있는데 보통 광고의 클릭률은 0.001%에서0.0001%사이이다. 이는 거짓을 판명하는데 있어서 99.99%의 정확성을 보이지만 유용한 결과가 아님을 우리는 알 수 있다. 이를 해결하기 위해 우리는 True Positive, True Negative, False Positive, False Negative를 사용한다. ex) TP : 늑대다!라고 외쳤고 늑대가 실제로 있었다 FP :..
-
정규화와 로지스틱 회귀Machine Learning/기본개념 2023. 5. 22. 02:18
정규화 우리는 데이터를 학습시키다보면 학습데이터에 익숙해져버려서 새로운 데이터에서 제대로 검증할 수 없는 상황이 발생할 수 있다.(과적합) 이를 해결하기 위해 우리는 정규화를 사용할 수 있다. 정규화를 하는 방법은 조기중단이나 모델 복잡성 패널티와 같은 방법이 있다. L2정규화가 대표적인데 손실에 스칼라를곱한 전규화 항을 더해줌으로써 전반적인 영향을 조정한다. 이렇게하면 입력값 중에 유용하지 않은 가중치의 값이 0에 가깝도록 유도할 수 있다. 로지스틱 회귀 우리가 사용하는 확률은 0에서 1사이로 제한되어 있지만 예측 모델에서 이 범위에 벗어나는 값이 나올 수도 있다. 특히 예측 확률을 곱하거나 예측 확률을 사용하여 예측값을 생성한다면 더 큰 문제이다. 그렇기 때문에 새로운 손실 함수와 예측 방법이 필요한..