Lido Blog: 深度學習 - IMDb數據集訓練

深度學習 - IMDb數據集訓練 - 二分類為題

這邊直接套用 Sequential 來做訓練

程式碼：

from keras.datasets import imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

這邊嘗試將訓練數據全部轉為二進制1,0的data，將數據全部做向量化，先前完全誤會意思...後續補上...。

import numpy as np

def vectorize_sequences(sequences, dimension=10000):
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.    
    return results

將訓練&測試資料做向量化[0,1]

x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)

將標籤也向量化

y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')

定義模型

from keras import models
from keras import layers

model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

配置優化器

model.compile(optimizer='rmsprop',loss='binary_crossentropy',metrics=['accuracy'])

開始訓練

model.fit(x_train, y_train, epochs=20, batch_size=512)

將測試data輸入至訓練過後的模型看看結果

results = model.evaluate(x_test, y_test)
print(results)

最後得到
[0.778876206111908, 0.84828]
Loss = 0.778, acc = 0.848

再來嘗試修改epochs, model 隱藏單元改成8或32，看看會發生什麼變化？

model.fit(x_train, y_train, epochs=10, batch_size=512)

model.add(layers.Dense(8, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(8, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

[0.34531721943855287, 0.87516]
Loss = 0.345, acc = 0.875
epochs, 隱藏單元變少，精度缺增加！？
這中間發生了什麼事！？

利用validation_data - 驗證數據的生成器

為了在訓練過程中監控訓練模型在未見過的數據上的精度，我們需要將原本的訓練數據分出一部分用來驗證訓練模型的精度。
作法如下：

x_val = x_train[:10000]
partial_x_train = x_train[10000:]
y_val = y_train[:10000]
partial_y_train = y_train[10000:]

將數據分為 x_val 為數據0~10000筆 , partial_x 為數據10000~25000筆

history = model.fit(partial_x_train,
                    partial_y_train,
                    epochs=20,
                    batch_size=512,
                    validation_data=(x_val, y_val))

history_dict = history.history
history_dict.keys()

>>>history_dict.keys()
dict_keys(['val_loss', 'val_acc', 'loss', 'acc'])

history.history可以產生一個dict紀錄訓練過程，每跌代一次就會有一組紀錄值存在dict中，接下來用matplotlib 將訓練過程損失值&精度畫出來看看。

import matplotlib.pyplot as plt

history_dict = history.history
loss_values = history_dict['loss']
val_loss_values = history_dict['val_loss']

epochs = range(1, len(loss_values) + 1)

plt.plot(epochs, loss_values, 'bo', label='Training loss')
plt.plot(epochs, val_loss_values, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()

plt.show()

可見到訓練損失每跌代一次就越來越低，而驗證損失從跌代第四次後就越來越高，發生overfit 的現象。從這圖就可以得知，過度訓練只會讓模型在訓練數據上的表現越來越好，但是在未見過的數據上表現則會失去精準度。

plt.clf()
acc_values = history_dict['acc']
val_acc_values = history_dict['val_acc']

plt.plot(epochs, acc_values, 'bo', label='Training acc')
plt.plot(epochs, val_acc_values, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()

plt.show()

這張圖同樣的顯示，跌代越多次，訓練精度越高，但是在驗證數據上的精度並沒有表現如此。
這也是為什麼我們先前改變跌代次數epochs 20=>10，反而在test_data的精度變高。
這邊學到如何使用validation_data 來監控訓練的過程是否有overfit的現象。

Lido Blog

網頁

2019年1月6日星期日

深度學習 - IMDb數據集訓練 - 二分類為題

深度學習 - IMDb數據集訓練 - 二分類為題

沒有留言:

張貼留言

檢舉濫用情形

網頁

2019年1月6日 星期日

深度學習 - IMDb數據集訓練 - 二分類為題

深度學習 - IMDb數據集訓練 - 二分類為題

沒有留言:

張貼留言

檢舉濫用情形

2019年1月6日星期日