336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.
plot 을 나타내기 위해 matplotlib.pyplot 도 불러온다.
변수 (column)사이의 상관계수(correlation)
corr함수를 통해 상관계수 연산(-1, 1 사이의 결과)
1에 가까울수록 양의 상관관계가 강하다 (= 하나가 증가하면 다른 하나도 증가)
-1에 가까울수록 음의 상관관계가 강하다 (= 하나가 증가하면 다른 하나는 감소)
연속성(숫자형)데이터에 대해서만 연산
인과관계를 의미하진 않음.
diagonal 값(대각선값)은 항상 다 1임.
대각선을 기준으로 대칭임.
우리가 궁극적으로 알고자하는 값이 Survived인데
이 때 위의 corr( ) 결과를 보면
Pclass와 Fare가 가장 뚜렷한 관계를 가지고 있음을 확인할 수 있다.
pyplot 의 matshow 함수를 통해 행렬을 가시화하면
다음과 같은 이미지를 볼 수 있다.
위 내용은 fastcampus 강의 내용을 정리한 것입니다.
'AI > 데이터분석' 카테고리의 다른 글
[pandas] DataFrame 숫자 데이터와 범주형 데이터 (0) | 2020.02.23 |
---|---|
[pandas] DataFrame NaN 데이터 처리 (0) | 2020.02.18 |
[pandas] DataFrame에 새 column 추가 & 삭제 (0) | 2020.02.18 |
[pandas] DataFrame Boolean Selection (0) | 2020.02.18 |
[pandas] DataFrame 원하는 row만 선택하기 (0) | 2020.02.17 |