기억 저장소

클라우드 기반 인공지능 개발과 DevOps 실무

인공지능 56

클러스터링 - KMeans(군집화)

데이터를 k개의 클러스터로 묶는 알고리즘입니다. Unsupervised이며, 입력 데이터(X)에 대한 레이블링 데이터(Y)가 없이 입력 값 (X 값)의 특성만으로 학습을 진행합니다. 사용자가 클러스터의 개수(k)를 정의합니다. 임의로 정해진 K라는 값에서 가까인 있는 데이터들을 모아 하나의 그룹을 만들고 만들어진 그룹의 중앙값을 기준으로

머신러닝: Hierarchical clustering,계층적 클러스터링,덴드로그램,Dendrogram

Hierarchical clustering (한글 : 계층적 군집 분석) 은 비슷한 군집끼리 묶어 가면서 최종 적으로는 하나의 케이스가 될때까지 군집을 묶는 클러스터링 알고리즘이다 군집간의 거리를 기반으로 클러스터링을 하는 알고리즘이며, K Means와는 다르게 군집의 수를 미리 정해주지 않아도 된다. 위에 그림은 파일을 불러온 뒤 덴드로그램까지의 코드를 적어놓은 것 이다. import scipy.cluster.hierarchy as sch 라이브러리를 불러와 덴드로그램을 불러 사용하면 된다. 클러스터의 갯수의 경우 임의자(사람)가 임의로 정하기 때문에 덴드로그램을 보고 임의자가 판단하여 클러스터의 갯수를 정하면 된다 . 정한 클러스터의 따라 맞는 데이터들이 정해진 클러스터에 들어가게 된다. 정해진 클러..

머신 러닝 : Decision Tree

결정 트리(Decision Tree, 의사결정트리, 의사결정나무라고도 함)는 분류(Classification)와 회귀(Regression) 모두 가능한 지도 학습 모델 중 하나입니다. 결정 트리는 스무고개 하듯이 예/아니오 질문을 이어가며 학습합니다. read_csv로 파일을 불러온 뒤 필요한 X , y 값을 분리해준다. X (학습시킬 값) , y (학습시킨 값의 답) 트레이닝과 테스트 값을 나눠준다. from sklearn.tree import DecisionTreeClassifier 라이브러리를 불러온 뒤 위에 그림과 같이 대입하여 사용해주면 된다 . confusion_matrix(y_test,y_pred) => 맞춘값과 틀린 값을 알 수 있다. accuracy_score(y_test,y_pred) ..

머신러닝 : Random Forest , 랜덤 포레스트, 머신러닝 2차원 배열, 1차원,2차원으로 바꾸기 ,

랜덤 포레스트(영어: random forest)는 분류, 회귀 분석 등에 사용되는 앙상블 학습 방법의 일종으로, 훈련 과정에서 구성한 다수의 결정 트리로부터 부류(분류) 또는 평균 예측치(회귀 분석)를 출력함으로써 동작한다. ** Random Forest 는 결정 트리(Decision Tree) 상위 버전을 생각하면 쉽다. from sklearn.ensemble import RandomForestRegressor 라이브러리 불러오기 1차원인 시리즈 값이 있으면 2차원으로 바꾸준다. 머신러닝,딥러닝은 무조건 2차원인 넘파이를 사용한다. 일반적인 reshape을 사용하면 아래와 같이 에러가 뜨게 된다. (시리즈안에는 reshape 이란 함수를 가지고 있지않다) 그러므로 values 값만 따로 사용한 !!!!..

머신러닝 : SVM=Support Vector Machine(서포터 백터 머신)

서포트 벡터 머신(이하 SVM)은 결정 경계(Decision Boundary), 즉 분류를 위한 기준 선을 정의하는 모델이다. 그래서 분류되지 않은 새로운 점이 나타나면 경계의 어느 쪽에 속하는지 확인해서 분류 과제를 수행할 수 있게 된다. 결정 경계에는 2차원,3차원이 가능하며 결정 경계와 서포트 벡터 사이의 거리를 '마진' 이라 한다. 쉽게 설명하면 선과 가장 가까운 점 데이터끼리와 선의 사이의 길이라고 생각하면 된다. 필요한 데이터를 read_csv로 불러 온 뒤 NaN있는지, 카테고리컬데이터가 있는지 확인 후 X, y 를 나눠준다. X=트레이닝 시킬 데이터 y= 트레이닝 시킨 데이터의 값(답) from sklearn.svm import SVC 라이브러리를 불러온 뒤 classifier = SVC(..

머신 러닝 : KNN알고리즘

필요한 값을 read_csv 를 통해 가져온 뒤 X , y 값을 나눠준다. from sklearn.preprocessing import StandardScaler,MinMaxScaler from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier 필요한 라이브러리를 불러 온 뒤 평균 값 StandardScaler() X=scaler.fit_transform(X) 트레이닝,테스트 값 셋팅 X_train, X_test , y_train , y_test=train_test_split(X,y,test_size=0.25,random_state=3) 모델링을 통해서 값을 훈련시킨 뒤 clas..