기억 저장소

클라우드 기반 인공지능 개발과 DevOps 실무

인공지능 56

머신러닝 : Feature Scaling , 피쳐 스케일링,StandardScaler,MinMaxScaler, 표준값 , 중앙값

피처 스케일링은 서로 다른 변수(feature)의 값 범위를 일정한 수준으로 맞추는 작업이다. from sklearn.preprocessing import StandardScaler,MinMaxScaler 를 import 해준 뒤 StandardScaler() 가 들어 있는 변수를 만들어 준다 . (대부분 'scaler' 로 표시한다.) scaler.transform()을 불러 준뒤 train test 중 필요한 값들을 넣어준다. from sklearn.preprocessing import StandardScaler,MinMaxScaler 를 import 해준 뒤 MinMaxScaler() 가 들어 있는 변수를 만들어 준다 . (대부분 'scaler' 로 표시한다.) scaler.transform()을 ..

머신 러닝 : Training / Test set , 트레이닝 테스트 용 나누기 , 데이터 나누기

transform 한 X , y 를 가져온다. from sklearn.model_selection import train_test_split import를 불러온 뒤 X_train, X_test , y_train , y_test = train_test_split(X,y,test_size=0.2,random_state=3) 아래의 식 처럼 입해준다. test_size = => X_test, y_test 를 얼마나 저장할지 단위를 나타내주며 random_state= => random 무작위로 뽑아오는 숫자를 뜻한다 같은 식으로 같은 숫자를 대입하면 값은 값이 나올 수 있다.

고쳐야 되는 것 머신러닝 : (2)Page 원 핫 인코딩 One Hot Encoding , 문자열를 숫자로 변환해주기 , 머신러닝을 위해 숫자 변환

(1) Page 필독!! NaN를 제거 한 후 3개 이상의 카케고리컬 데이터가 있을 경우 레이블 인코딩으로 학습 시키면 학습이 잘 안되것을 확인하여 One Hot Encoding 을 사용하면 성능이 좋아 사용되고 있다. from sklearn.preprocessing import LabelEncoder, OneHotEncoder from sklearn.compose import ColumnTransformer 라이브러리를 가져온다. loc 또는 iloc를 통해 원하는 값(X=> 학습시킬 데이터)을 X의 변수로 만들어준다. 아래그럼처럼 하면 쉽게 스케일링 할수 있다.

머신러닝 : (2)Page 레이블 인코딩 , Label Encoding , 문자열를 숫자로 변환해주기 , 머신러닝을 위해 숫자 변환

(1) page를 확인하고 올 것 (1) page 의 NaN를 없애주는 방법 후 X 축과 y축 값을 나눠준다. X(대문자로 쓸것) =>종속변수로 학습시킬 데이터라고 생각하면 된다. y(소문자로 쓸것) =>독립변수로 학습시킨 후 얻고 싶은 값이라고 생각하면 된다. 카테고리컬 데이터를 확인해준다. 카테리고리컬 데이터를 확인해준 뒤 , 문자되어 있는 데이터를 숫자로 바꿔 줘야하는데 sorted 함수를 통해 문자열을 정렬해준 뒤, 0으로 시작해 순서대로 숫자들을 변환해준다. from sklearn.preprocessing import LabelEncoder, OneHotEncoder from sklearn.compose import ColumnTransformer 라이브러리를 가져온 뒤 LabelEncoder(..

머신러닝 : (1)Page [레이블 인코딩,원 핫 인 코딩] , [Label Encoding , One Hot Encoding], 문자열를 숫자로 변환해주기 , 머신러닝을 위해 숫자 변환

import numpy as np import matplotlib.pyplot as plt import pandas as pd 등을 통해 라이브러리를 가져온 뒤 저장되어있는 csv 파일을 read 로 읽어온다 데이터 프레임에 있는 문자열들이 카테고리컬 데이터 인지 확인해준다. NaN를 두가지의 방법 중 하나로 처리해준다. 카테고리컬 데이터는 컬럼이 2개일 경우 Label-Encoding, 3개 이상일 경우 One-Hot-Encoding을 사용해 Dummy variable trap 하였습니다. Label Encoding Label Encoding 이란 알파벳 오더순으로 숫자를 할당해주는 것을 말한다. 글자니까 당연히 알파벳순으로 정렬이 가능 할 것이고... 그 정렬된 기준으로 번호를 매긴다는 뜻. 각설하고..

머신러닝: 기본 설명 , 인공지능&머신러닝&딥러닝

머신러닝으로 할 수 있는 것 편지봉투에 손으로 쓴 우편번호 숫자 자동 판별 의료 영상 이미지에 기반한, 종양 판단 의심되는 신용카드 거래 감지 블로그 글의 주제 분류 고객들을 취향이 비슷한 그룹으로 묶기 # supervised 인공지능한테 정답을 알려주며 학습시키는 것. # unsupervised 인공지능이 정답을 모르는 상태로 학습 시키는 것 (고객 분석에 많이 사용 ) # classification =분류 (분류가 가능한거) # prediction = 예측 (수치가 나오는 값) # regression (수치가 나오는 값) # clustering (군집화 (큰 데이터에서 원하는 데이터끼리 묶어서 사용하는 것))