plosone_underreview: scripts/classification.py annotate

annotate scripts/classification.py @ 47:081ff4ea7da7 branch-tests

sensitivity experiment split

author	Maria Panteli <m.x.panteli@gmail.com>
date	Fri, 15 Sep 2017 17:33:14 +0100
parents	ef829b187308
children	08b9327f1935

rev	line source
Maria@18	1 # -- coding: utf-8 --
Maria@18	2 """
Maria@18	3 Created on Thu Nov 10 15:10:32 2016
Maria@18	4
Maria@18	5 @author: mariapanteli
Maria@18	6 """
Maria@18	7 import numpy as np
Maria@18	8 import pandas as pd
Maria@18	9 from sklearn import metrics
Maria@18	10
Maria@18	11 import map_and_average
Maria@18	12 import util_feature_learning
Maria@18	13
Maria@18	14
Maria@18	15 FILENAMES = map_and_average.OUTPUT_FILES
Maria@18	16
Maria@18	17
Maria@18	18 def load_data_from_pickle(filename):
Maria@18	19 X_list, Y, Yaudio = pickle.load(open(filename,'rb'))
Maria@18	20 X = np.concatenate(data_list, axis=1)
Maria@18	21 return X, Y, Yaudio
Maria@18	22
Maria@18	23
m@45	24 def get_train_test_indices(audiolabs):
Maria@18	25 trainset, valset, testset = map_and_average.load_train_val_test_sets()
Maria@18	26 trainaudiolabels, testaudiolabels = trainset[2], testset[2]
Maria@18	27 # train, test indices
Maria@18	28 aa_train = np.unique(trainaudiolabels)
Maria@18	29 aa_test = np.unique(testaudiolabels)
Maria@18	30 traininds = np.array([i for i, item in enumerate(audiolabs) if item in aa_train])
Maria@18	31 testinds = np.array([i for i, item in enumerate(audiolabs) if item in aa_test])
Maria@18	32 return traininds, testinds
Maria@18	33
Maria@18	34
Maria@18	35 def get_train_test_sets(X, Y, traininds, testinds):
Maria@18	36 X_train = X[traininds, :]
Maria@18	37 Y_train = Y[traininds]
Maria@18	38 X_test = X[testinds, :]
Maria@18	39 Y_test = Y[testinds]
Maria@18	40 return X_train, Y_train, X_test, Y_test
Maria@18	41
Maria@18	42
Maria@18	43 def classify_for_filenames(file_list=FILENAMES):
Maria@18	44 df_results = pd.DataFrame()
Maria@18	45 feat_learner = util_feature_learning.Transformer()
Maria@18	46 for filename in file_list:
Maria@18	47 X, Y, Yaudio = load_data_from_pickle(filename)
m@47	48 traininds, testinds = get_train_test_indices(Yaudio)
Maria@18	49 X_train, Y_train, X_test, Y_test = get_train_test_sets(X, Y, traininds, testinds)
Maria@18	50 df_result = feat_learner.classify(X_train, Y_train, X_test, Y_test)
Maria@18	51 df_results = pd.concat([df_results, df_result], axis=0, ignore_index=True)
m@47	52 return df_results
m@47	53
m@47	54
m@47	55 def classify_each_feature(X_train, Y_train, X_test, Y_test):
m@47	56 n_dim = X_train.shape[1]
m@47	57 feat_labels, feat_inds = map_and_average.get_feat_inds(n_dim=n_dim)
m@47	58 #df_results = pd.DataFrame()
m@47	59 # first the classification with all features together
m@47	60 df_results = feat_learner.classify(X_train, Y_train, X_test, Y_test)
m@47	61 # then append for each feature separately
m@47	62 for i in range(len(feat_inds)):
m@47	63 df_result = feat_learner.classify(X_train[:, feat_inds[i]], Y_train,
m@47	64 X_test[:, feat_inds[i]], Y_test)
m@47	65 df_results = pd.concat([df_results, df_result], axis=1, ignore_index=True)
m@47	66 return df_results
Maria@18	67
Maria@18	68
Maria@18	69 def plot_CF(CF, labels=None, figurename=None):
Maria@18	70 labels[labels=='United States of America'] = 'United States Amer.'
Maria@18	71 plt.imshow(CF, cmap="Greys")
Maria@18	72 plt.xticks(range(len(labels)), labels, rotation='vertical', fontsize=4)
Maria@18	73 plt.yticks(range(len(labels)), labels, fontsize=4)
Maria@18	74 if figurename is not None:
Maria@18	75 plt.savefig(figurename, bbox_inches='tight')
Maria@18	76
Maria@18	77
Maria@18	78 def confusion_matrix(X_train, Y_train, X_test, Y_test, saveCF=False, plots=False):
Maria@18	79 feat_learner = util_feature_learning.Transformer()
m@30	80 accuracy, predictions = feat_learner.classification_accuracy(X_train, Y_train,
m@30	81 X_test, Y_test, model=feat_learner.modelLDA)
Maria@18	82 labels = np.unique(Y_test) # TODO: countries in geographical proximity
Maria@18	83 CF = metrics.confusion_matrix(Y_test, predictions, labels=labels)
Maria@18	84 if saveCF:
Maria@18	85 np.savetxt('data/CFlabels.csv', labels, fmt='%s')
Maria@18	86 np.savetxt('data/CF.csv', CF, fmt='%10.5f')
Maria@18	87 if plots:
Maria@18	88 plot_CF(CF, labels=labels, figurename='data/conf_matrix.pdf')
Maria@18	89 return accuracy, predictions
Maria@18	90
Maria@18	91
Maria@18	92 if __name__ == '__main__':
Maria@18	93 df_results = classify_for_filenames(file_list=FILENAMES)
Maria@18	94 max_i = np.argmax(df_results[:, 1])
Maria@18	95 feat_learning_i = max_i % 4 # 4 classifiers for each feature learning method
Maria@18	96 filename = FILENAMES[feat_learning_i]
Maria@18	97 X, Y, Yaudio = load_data_from_pickle(filename)
m@45	98 traininds, testinds = get_train_test_indices(Yaudio)
Maria@18	99 X_train, Y_train, X_test, Y_test = get_train_test_sets(X, Y, traininds, testinds)
Maria@18	100 confusion_matrix(X_train, Y_train, X_test, Y_test, saveCF=True, plots=True)
Maria@18	101

Mercurial > hg > plosone_underreview

annotate scripts/classification.py @ 47:081ff4ea7da7 branch-tests