import numpy as np
x = np.array([[1,2,3],[4,5,6]])
print('x:\n', x)

x:
 [[1 2 3]
 [4 5 6]]

from scipy import sparse

# 대각선 원소는 1이고 나머지는 0인 2차원 NumPy배열을 만든다.
eye = np.eye(4)
print('NumPy배열 :\n', eye)

NumPy배열 :
 [[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]

# NumPy 배열을 CSR포맷의 SciPy 희박 행렬로 변환한다.
# 0이 아닌 원소만 저장된다.
sparse_matrix = sparse.csr_matrix(eye)
print('SciPy의 CSR행렬:\n', sparse_matrix)

SciPy의 CSR행렬:
   (0, 0)	1.0
  (1, 1)	1.0
  (2, 2)	1.0
  (3, 3)	1.0

data = np.ones(4)                                  # 1,1,1,1 의 값들을 의미
row = np.arange(4)                                 # row = 0, 1, 2, 3
col = np.arange(4)                                 # col = 0, 1, 2, 3
eye_coo = sparse.coo_matrix((data, (row, col)))    # 즉, data[0]의 1을 (0,0), data[1]의 1을 (1,1), ..., data[3]의 1을 (3,3)에 위치시킨다.
print('COO 표현:\n', eye_coo)

COO 표현:
   (0, 0)	1.0
  (1, 1)	1.0
  (2, 2)	1.0
  (3, 3)	1.0

%matplotlib inline
import matplotlib.pyplot as plt
# -10에서 10까지 100개의 간격으로 나뉘어진 배열을 생성한다.
x = np.linspace(-10, 10, 100)
# 사인 함수를 사용하여 y배열을 생성
y = np.sin(x)
# plot 함수는 한 배열의 값을 다른 배열에 대응해서 선 그래프를 그린다.
plt.plot(x, y, marker = 'x')

[<matplotlib.lines.Line2D at 0x1e3fc2cbdf0>]

import pandas as pd
data = {
                            'Name' : ['John','Anna', 'Peter', 'Linda'],
                            'Loc' : ['New York', 'Paris', 'Berlin', 'London'],
                            'Age' : [24, 13, 53, 33]
}

data_pandas = pd.DataFrame(data)
data_pandas

# Age열의 값이 30이상인 모든 행을 선택
data_pandas[data_pandas.Age>30]

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import mglearn

from sklearn.datasets import load_iris
iris_dataset= load_iris()

print('iris_data의 key :\n', iris_dataset.keys())

iris_data의 key :
 dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

# DESCR 키에는 데이터셋에 대한 간략한 설명이 들어있다.
print(iris_dataset['DESCR'][:194] + '\n...')

print('\n========== 절취선 ==========\n')

# target_names의 값은 우리가 예측하려는 붓꽃 품종의 이름을 문자열 배열로 가지고 있다.
print('타깃의 이름 : ', iris_dataset['target_names'])

print('\n========== 절취선 ==========\n')

# feature_names의 값은 각 특성을 설명하는 문자열 리스트이다.
print('특성의 이름 : ', iris_dataset['feature_names'])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, pred
...

========== 절취선 ==========

타깃의 이름 :  ['setosa' 'versicolor' 'virginica']

========== 절취선 ==========

특성의 이름 :  ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

# 실제 데이터는 target과 data필드에 들어있다.
# data는 꽃잎/꽃받침의 길이와 폭을 수치값으로 가지고 있는 NumPy배열이다.
print('data의 타입 : ', type(iris_dataset['data']))
print('data의 타입 :\n', iris_dataset['data'][:10])
print('...')

data의 타입 :  <class 'numpy.ndarray'>
data의 타입 :
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]]
...

print('data의 크기 : ',iris_dataset['data'].shape)

data의 크기 :  (150, 4)

print('data의 처음 다섯 행 : \n', iris_dataset['data'][:5])

data의 처음 다섯 행 :
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]

print('target의 타입 : ', type(iris_dataset['target']))
print()
print('target의 크기 : ', iris_dataset['target'].shape)
print()
print('타깃 :\n', iris_dataset['target'])
print()
print('타깃의 이름 : \n', iris_dataset['target_names'])

target의 타입 :  <class 'numpy.ndarray'>

target의 크기 :  (150,)

타깃 :
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]

타깃의 이름 :
 ['setosa' 'versicolor' 'virginica']

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(iris_dataset['data'], iris_dataset['target'], random_state=0)
# random_state : 난수 생성기 옵션
# random_state = 0일때, 해당 함수를 여러번 실행해도 결과가 똑같이 나옴

print('X_train 크기 : ', X_train.shape)
print('y_train 크기 : ', y_train.shape)

X_train 크기 :  (112, 4)
y_train 크기 :  (112,)

print('X_test 크기 : ', X_test.shape)
print('y_test 크기 : ', y_test.shape)

X_test 크기 :  (38, 4)
y_test 크기 :  (38,)

import pandas as pd
import mglearn
# 그래프를 그리기위해 NumPy배열을 pandas의 DataFrame으로 변경!
# X_train 데이터를 사용해서 데이터 프레임을 만든다.
# 열의 이름은 iris_dataset의 feature_names에 있는 문자열을 사용한다.
iris_df = pd.DataFrame(X_train, columns = iris_dataset['feature_names'])
# 데이터프레임을 사용해 y_train에 따라 색으로 구분된 산점도 행렬을 만든다.
pd.plotting.scatter_matrix(iris_df,
                            c=y_train,
                            figsize=(15, 15),
                            marker='x',
                            hist_kwds={'bins': 20},
                            s=60,
                            alpha=.8,
                            cmap=mglearn.cm3)

array([[<matplotlib.axes._subplots.AxesSubplot object at 0x000001B0A645ABE0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001B0A6E2E850>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001B0A71522E0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001B0A717BA60>],
       [<matplotlib.axes._subplots.AxesSubplot object at 0x000001B0A71B0250>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001B0A71D88E0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001B0A71D89D0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001B0A720D1F0>],
       [<matplotlib.axes._subplots.AxesSubplot object at 0x000001B0A7260100>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001B0A7296850>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001B0A72BFFD0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001B0A5DE39A0>],
       [<matplotlib.axes._subplots.AxesSubplot object at 0x000001B0A61D0C10>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001B0A6300F70>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001B0A65EAE50>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x000001B0A6DFA6A0>]],
      dtype=object)

from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1) # 이웃의 개수 1로 지정

knn.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=1)

import numpy as np

X_new = np.array([[5, 2.9, 1, 0.2]])
print('X_new.shape : ', X_new.shape)

X_new.shape :  (1, 4)

prediction = knn.predict(X_new)
print('예측 : ', prediction)
print('예측한 타깃의 이름 : ', iris_dataset['target_names'][prediction])

예측 :  [0]
예측한 타깃의 이름 :  ['setosa']

y_pred = knn.predict(X_test)
print('테스트 세트에 대한 예측값 :\n', y_pred)

테스트 세트에 대한 예측값 :
 [2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2]

print('테스트 세트의 정확도 : {:.2f}'.format(np.mean(y_pred==y_test)))

테스트 세트의 정확도 : 0.97

# knn객체에는 지금 X_train, y_train에관한 데이터와 레이블이 저장되어있다는 것을 까먹지말자
print('테스트 세트의 정확도 : {:.2f}'.format(knn.score(X_test,y_test)))

테스트 세트의 정확도 : 0.97

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

X_train, X_test, y_train, y_test = train_test_split(iris_dataset['data'], iris_dataset['target'], random_state = 0)

knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train, y_train)

print('테스트 세트의 정확도 : {:.2f}'.format(knn.score(X_test, y_test)))

테스트 세트의 정확도 : 0.97

[ML with Python] 1. Introduction

[ 소개 ]¶

[ 1. 왜 머신러닝인가? ]¶

(1) 머신러닝으로 풀 수 있는 문제¶

(2) 문제와 데이터 이해하기¶

[ 2. 왜 파이썬인가? ]¶

[ 3. scikit-learn ]¶

(1) scikit-learn 설치¶

[ 4. 필수 라이브러리와 도구들 ]¶

(1) `NumPy`¶

(2) `SciPy`¶

(3) `matplotlib`¶

(4) `pandas`¶

(5) `mglearn`¶

[ 5. 첫 번째 애플리케이션 : 붓꽃의 품종 분류 ]¶

(1) 데이터 적재¶

(2) 성과 측정 : 훈련 데이터와 테스트 데이터¶

(3) 가장 먼저 할 일 : 데이터 살펴보기¶

(4) 첫 번째 머신러닝 모델 : k-최근접 이웃 알고리즘¶

(5) 예측하기¶

(6) 모델 평가하기¶

[ 6. 요약 및 정리 ]¶

Yejin's Velog

	Name	Loc	Age
0	John	New York	24
1	Anna	Paris	13
2	Peter	Berlin	53
3	Linda	London	33

	Name	Loc	Age
2	Peter	Berlin	53
3	Linda	London	33

[ 소개 ]¶

[ 1. 왜 머신러닝인가? ]¶

(1) 머신러닝으로 풀 수 있는 문제¶

(2) 문제와 데이터 이해하기¶

[ 2. 왜 파이썬인가? ]¶

[ 3. scikit-learn ]¶

(1) scikit-learn 설치¶

[ 4. 필수 라이브러리와 도구들 ]¶

(1) NumPy¶

(2) SciPy¶

(3) matplotlib¶

(4) pandas¶

(5) mglearn¶

[ 5. 첫 번째 애플리케이션 : 붓꽃의 품종 분류 ]¶

(1) 데이터 적재¶

(2) 성과 측정 : 훈련 데이터와 테스트 데이터¶

(3) 가장 먼저 할 일 : 데이터 살펴보기¶

(4) 첫 번째 머신러닝 모델 : k-최근접 이웃 알고리즘¶

(5) 예측하기¶

(6) 모델 평가하기¶

[ 6. 요약 및 정리 ]¶

Share this post

(1) `NumPy`¶

(2) `SciPy`¶

(3) `matplotlib`¶

(4) `pandas`¶

(5) `mglearn`¶