기억 저장소

클라우드 기반 인공지능 개발과 DevOps 실무

전체 글 366

판다스 seaborn 히트맵, heatmap 히트맵 사용하기, 여러 데이터프레임 수치화 하기

히트맵(Heat map)은 2차원 데이터 안에 대응하는 숫자값을 단순하게 보여주는것 뿐만 아니라 색상의 진한 정도 와 옅은 정도를 이용해 숫자값을 눈으로도 쉽게 비교할 수 있는 차트 모양이다. 원하는 서로다른 변수 값을 corr()를 통해 상관계수를 따져본 뒤 heatmap 상관 관계를 따져본다. 0.7보다 클경우 강한 양의 상관관계이며 -0.7보다 작을 경우는 강한 음의 상관과계라고 판단한다. 주의할 점 1. 연속형(숫자로 표현 가능한) 데이터에 대해서만 상관관계 분석이 가능한점 2. -1부터 1까지의 값으로 상관관계의 크기를 보여준다는 점 3. 증가하는 방향성에 대한 것인지. 인과관계를 의미하지는 않다는 점. plt.figure(figsize= () 표의 사이즈 크기를 설정하는 것 내부 속성중 ann..

언어/python 2021.11.26

구글 맵 API -Geocoding API 설정하는 방법

구글 맵 API를 사용하면 보다 빠르고 쉽게 값을 얻을 수 있으며, 많은 데이터를 학습시켜 사용하였기 때문에 정확성이 좋다. 구글 API를 이용하기 위해서는 구글 계정과 크레딧카드,인증 등이 필요하다. 기본적인 서비스는 무료로 이용 가능하지만 정해진 데이터보다 많이 사용하거나, 더 많은 서비스를 사용하려면 서비스이용을 위해 금액을 지불해야 한다.

언어/python 2021.11.26

머신러닝: Hierarchical clustering,계층적 클러스터링,덴드로그램,Dendrogram

Hierarchical clustering (한글 : 계층적 군집 분석) 은 비슷한 군집끼리 묶어 가면서 최종 적으로는 하나의 케이스가 될때까지 군집을 묶는 클러스터링 알고리즘이다 군집간의 거리를 기반으로 클러스터링을 하는 알고리즘이며, K Means와는 다르게 군집의 수를 미리 정해주지 않아도 된다. 위에 그림은 파일을 불러온 뒤 덴드로그램까지의 코드를 적어놓은 것 이다. import scipy.cluster.hierarchy as sch 라이브러리를 불러와 덴드로그램을 불러 사용하면 된다. 클러스터의 갯수의 경우 임의자(사람)가 임의로 정하기 때문에 덴드로그램을 보고 임의자가 판단하여 클러스터의 갯수를 정하면 된다 . 정한 클러스터의 따라 맞는 데이터들이 정해진 클러스터에 들어가게 된다. 정해진 클러..

머신 러닝 : Decision Tree

결정 트리(Decision Tree, 의사결정트리, 의사결정나무라고도 함)는 분류(Classification)와 회귀(Regression) 모두 가능한 지도 학습 모델 중 하나입니다. 결정 트리는 스무고개 하듯이 예/아니오 질문을 이어가며 학습합니다. read_csv로 파일을 불러온 뒤 필요한 X , y 값을 분리해준다. X (학습시킬 값) , y (학습시킨 값의 답) 트레이닝과 테스트 값을 나눠준다. from sklearn.tree import DecisionTreeClassifier 라이브러리를 불러온 뒤 위에 그림과 같이 대입하여 사용해주면 된다 . confusion_matrix(y_test,y_pred) => 맞춘값과 틀린 값을 알 수 있다. accuracy_score(y_test,y_pred) ..

머신러닝 : Random Forest , 랜덤 포레스트, 머신러닝 2차원 배열, 1차원,2차원으로 바꾸기 ,

랜덤 포레스트(영어: random forest)는 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종으로, 훈련 과정에서 구성한 다수의 결정 트리로부터 부류(분류) 또는 평균 예측치(회귀 분석)를 출력함으로써 동작한다. ** Random Forest 는 결정 트리(Decision Tree) 상위 버전을 생각하면 쉽다. from sklearn.ensemble import RandomForestRegressor 라이브러리 불러오기 1차원인 시리즈 값이 있으면 2차원으로 바꾸준다. 머신러닝,딥러닝은 무조건 2차원인 넘파이를 사용한다. 일반적인 reshape을 사용하면 아래와 같이 에러가 뜨게 된다. (시리즈안에는 reshape 이란 함수를 가지고 있지않다) 그러므로 values 값만 따로 사용한 !!!!..

머신러닝 : SVM=Support Vector Machine(서포터 백터 머신)

서포트 벡터 머신(이하 SVM)은 결정 경계(Decision Boundary), 즉 분류를 위한 기준 선을 정의하는 모델이다. 그래서 분류되지 않은 새로운 점이 나타나면 경계의 어느 쪽에 속하는지 확인해서 분류 과제를 수행할 수 있게 된다. 결정 경계에는 2차원,3차원이 가능하며 결정 경계와 서포트 벡터 사이의 거리를 '마진' 이라 한다. 쉽게 설명하면 선과 가장 가까운 점 데이터끼리와 선의 사이의 길이라고 생각하면 된다. 필요한 데이터를 read_csv로 불러 온 뒤 NaN있는지, 카테고리컬데이터가 있는지 확인 후 X, y 를 나눠준다. X=트레이닝 시킬 데이터 y= 트레이닝 시킨 데이터의 값(답) from sklearn.svm import SVC 라이브러리를 불러온 뒤 classifier = SVC(..