plosone_underreview: notebooks/sensitivity

comparison notebooks/sensitivity_experiment.ipynb @ 55:98cd5317e504 branch-tests

updated notebooks

author	mpanteli <m.x.panteli@gmail.com>
date	Tue, 19 Sep 2017 21:27:09 +0100
parents	d3de9ac0d545
children	444041185ba9 a6606b255ad7

comparison

equal deleted inserted replaced

-:dbcd5b2a4efa
+:98cd5317e504
 "import scripts.outliers as outliers"
 ]
 },
 {
 "cell_type": "code",
-"execution_count": 3,
+"execution_count": 2,
 "metadata": {
 "collapsed": true
 },
 "outputs": [],
 "source": [
 "## Map frames and write output for the lda transformed frames"
 ]
 },
 {
 "cell_type": "code",
-"execution_count": 7,
+"execution_count": null,
 "metadata": {},
-"outputs": [
+"outputs": [],
-{
-"name": "stdout",
-"output_type": "stream",
-"text": [
-"iteration 0\n",
-"mapping...\n",
-"/import/c4dm-04/mariap/train_data_melodia_8_0.pickle\n"
-]
-},
-{
-"ename": "KeyboardInterrupt",
-"evalue": "",
-"output_type": "error",
-"traceback": [
-"\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
-"\u001b[0;31mKeyboardInterrupt\u001b[0m                         Traceback (most recent call last)",
-"\u001b[0;32m<ipython-input-7-f093c6f2c550>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m()\u001b[0m\n\u001b[1;32m      7\u001b[0m     mapper.OUTPUT_FILES = [output_file.split('.pickle')[0]+'_'+str(n)+'.pickle' for \n\u001b[1;32m      8\u001b[0m                                  output_file in MAPPER_OUTPUT_FILES]\n\u001b[0;32m----> 9\u001b[0;31m     \u001b[0m_\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0m_\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mldadata_list\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0m_\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0m_\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mY\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mYaudio\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mmapper\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mlda_map_and_average_frames\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mmin_variance\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;36m0.99\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m     10\u001b[0m     \u001b[0mmapper\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mwrite_output\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m[\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mldadata_list\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m[\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m[\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mY\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mYaudio\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
-"\u001b[0;32m/homes/mp305/code/pythoncode/plosone_underreview/scripts/map_and_average.pyc\u001b[0m in \u001b[0;36mlda_map_and_average_frames\u001b[0;34m(dataset, n_components, min_variance)\u001b[0m\n\u001b[1;32m    149\u001b[0m \u001b[0;32mdef\u001b[0m \u001b[0mlda_map_and_average_frames\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mdataset\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0mNone\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mn_components\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0mNone\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mmin_variance\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0mNone\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    150\u001b[0m     \u001b[0;32mif\u001b[0m \u001b[0mdataset\u001b[0m \u001b[0;32mis\u001b[0m \u001b[0mNone\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 151\u001b[0;31m         \u001b[0mtrainset\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mvalset\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mtestset\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mload_train_val_test_sets\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m    152\u001b[0m     \u001b[0;32melse\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    153\u001b[0m         \u001b[0mtrainset\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mvalset\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mtestset\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mdataset\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
-"\u001b[0;32m/homes/mp305/code/pythoncode/plosone_underreview/scripts/map_and_average.pyc\u001b[0m in \u001b[0;36mload_train_val_test_sets\u001b[0;34m()\u001b[0m\n\u001b[1;32m     69\u001b[0m     '''\n\u001b[1;32m     70\u001b[0m     \u001b[0;32mprint\u001b[0m \u001b[0mINPUT_FILES\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;36m0\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 71\u001b[0;31m     \u001b[0mtrainset\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mload_data_from_pickle\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mINPUT_FILES\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;36m0\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m     72\u001b[0m     \u001b[0mvalset\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mload_data_from_pickle\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mINPUT_FILES\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;36m1\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     73\u001b[0m     \u001b[0mtestset\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mload_data_from_pickle\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mINPUT_FILES\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;36m2\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
-"\u001b[0;32m/homes/mp305/code/pythoncode/plosone_underreview/scripts/map_and_average.pyc\u001b[0m in \u001b[0;36mload_data_from_pickle\u001b[0;34m(pickle_file)\u001b[0m\n\u001b[1;32m     57\u001b[0m     '''\n\u001b[1;32m     58\u001b[0m     \u001b[0;32mwith\u001b[0m \u001b[0mopen\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mpickle_file\u001b[0m\u001b[0;34m,\u001b[0m\u001b[0;34m'rb'\u001b[0m\u001b[0;34m)\u001b[0m \u001b[0;32mas\u001b[0m \u001b[0mf\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 59\u001b[0;31m         \u001b[0mdata\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mlabels\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0maudiolabels\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mpickle\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mload\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mf\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m     60\u001b[0m     \u001b[0;31m# remove 'unknown' and 'unidentified' country\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     61\u001b[0m     \u001b[0mdata\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mlabels\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0maudiolabels\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mremove_inds\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mdata\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mlabels\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0maudiolabels\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
-"\u001b[0;32m/homes/mp305/anaconda/lib/python2.7/pickle.pyc\u001b[0m in \u001b[0;36mload\u001b[0;34m(file)\u001b[0m\n\u001b[1;32m   1382\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m   1383\u001b[0m \u001b[0;32mdef\u001b[0m \u001b[0mload\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mfile\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m-> 1384\u001b[0;31m     \u001b[0;32mreturn\u001b[0m \u001b[0mUnpickler\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mfile\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mload\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m   1385\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m   1386\u001b[0m \u001b[0;32mdef\u001b[0m \u001b[0mloads\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mstr\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
-"\u001b[0;32m/homes/mp305/anaconda/lib/python2.7/pickle.pyc\u001b[0m in \u001b[0;36mload\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m    862\u001b[0m             \u001b[0;32mwhile\u001b[0m \u001b[0;36m1\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    863\u001b[0m                 \u001b[0mkey\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mread\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;36m1\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 864\u001b[0;31m                 \u001b[0mdispatch\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0mkey\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m    865\u001b[0m         \u001b[0;32mexcept\u001b[0m \u001b[0m_Stop\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mstopinst\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    866\u001b[0m             \u001b[0;32mreturn\u001b[0m \u001b[0mstopinst\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mvalue\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
-"\u001b[0;32m/homes/mp305/anaconda/lib/python2.7/pickle.pyc\u001b[0m in \u001b[0;36mload_string\u001b[0;34m(self)\u001b[0m\n\u001b[1;32m    966\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    967\u001b[0m     \u001b[0;32mdef\u001b[0m \u001b[0mload_string\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 968\u001b[0;31m         \u001b[0mrep\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mreadline\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m-\u001b[0m\u001b[0;36m1\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m    969\u001b[0m         \u001b[0;32mfor\u001b[0m \u001b[0mq\u001b[0m \u001b[0;32min\u001b[0m \u001b[0;34m\"\\\"'\"\u001b[0m\u001b[0;34m:\u001b[0m \u001b[0;31m# double or single quote\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    970\u001b[0m             \u001b[0;32mif\u001b[0m \u001b[0mrep\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mstartswith\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mq\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
-"\u001b[0;31mKeyboardInterrupt\u001b[0m: "
-]
-}
-],
 "source": [
 "MAPPER_OUTPUT_FILES = mapper.OUTPUT_FILES\n",
 "for n in range(n_iters):\n",
 "    print \"iteration %d\" % n\n",
 "    \n",
 "## Classification only - assuming mapper files are exported "
 ]
 },
 {
 "cell_type": "code",
-"execution_count": 5,
+"execution_count": 19,
 "metadata": {},
 "outputs": [
 {
 "name": "stdout",
 "output_type": "stream",
 "text": [
-"iteration 0\n"
+"iteration 0\n",
-]
+"classifying...\n",
-},
+"/import/c4dm-04/mariap/train_data_melodia_8_0.pickle\n",
-{
+"0.17294625462\n",
-"ename": "IOError",
+"detecting outliers...\n",
-"evalue": "[Errno 2] No such file or directory: '/import/c4dm-04/mariap/nmf_data_melodia_8_0.pickle'",
+"most outliers \n",
-"output_type": "error",
+"            Country  Outliers  N_Country  N_Outliers\n",
-"traceback": [
+"136        Botswana  0.590909         88          52\n",
-"\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+"31      Ivory Coast  0.571429         14           8\n",
-"\u001b[0;31mIOError\u001b[0m                                   Traceback (most recent call last)",
+"86           Gambia  0.541667         48          26\n",
-"\u001b[0;32m<ipython-input-5-eb8ccb858c3f>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m()\u001b[0m\n\u001b[1;32m      5\u001b[0m     \u001b[0mmapper\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mOUTPUT_FILES\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mCLASS_INPUT_FILES\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m      6\u001b[0m     \u001b[0mmapper\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mINPUT_FILES\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mOUTPUT_FILES\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m----> 7\u001b[0;31m     \u001b[0mldadata_list\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mY\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mYaudio\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mclassification\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mload_data_from_pickle\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mCLASS_INPUT_FILES\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;36m2\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m      8\u001b[0m     \u001b[0mX\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mnp\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mconcatenate\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mldadata_list\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0maxis\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;36m1\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m      9\u001b[0m     \u001b[0;31m# classification and confusion\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+"42            Benin  0.538462         26          14\n",
-"\u001b[0;32m/homes/mp305/code/pythoncode/plosone_underreview/scripts/classification.pyc\u001b[0m in \u001b[0;36mload_data_from_pickle\u001b[0;34m(filename)\u001b[0m\n\u001b[1;32m     18\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     19\u001b[0m \u001b[0;32mdef\u001b[0m \u001b[0mload_data_from_pickle\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mfilename\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 20\u001b[0;31m     \u001b[0mX_list\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mY\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mYaudio\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mpickle\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mload\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mopen\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mfilename\u001b[0m\u001b[0;34m,\u001b[0m\u001b[0;34m'rb'\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m     21\u001b[0m     \u001b[0mX\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mnp\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mconcatenate\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mdata_list\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0maxis\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;36m1\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     22\u001b[0m     \u001b[0;32mreturn\u001b[0m \u001b[0mX\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mY\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mYaudio\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+"102            Fiji  0.466667         15           7\n",
-"\u001b[0;31mIOError\u001b[0m: [Errno 2] No such file or directory: '/import/c4dm-04/mariap/nmf_data_melodia_8_0.pickle'"
+"20         Pakistan  0.461538         91          42\n",
+"64           Uganda  0.437500         80          35\n",
+"14          Liberia  0.425000         40          17\n",
+"78      El Salvador  0.424242         33          14\n",
+"50   Western Sahara  0.421687         83          35\n",
+"least outliers \n",
+"            Country  Outliers  N_Country  N_Outliers\n",
+"1         Lithuania  0.000000         47           0\n",
+"30      Afghanistan  0.000000         24           0\n",
+"28       Tajikistan  0.000000         19           0\n",
+"27      South Korea  0.000000         11           0\n",
+"113         Iceland  0.000000         14           0\n",
+"119         Denmark  0.000000         16           0\n",
+"74   Czech Republic  0.000000         41           0\n",
+"15      Netherlands  0.014925         67           1\n",
+"121          Poland  0.040000        100           4\n",
+"134        Paraguay  0.043478         23           1\n",
+"writing file\n",
+"iteration 1\n",
+"classifying...\n",
+"/import/c4dm-04/mariap/train_data_melodia_8_1.pickle\n",
+"0.149811300704\n",
+"detecting outliers...\n",
+"most outliers \n",
+"           Country  Outliers  N_Country  N_Outliers\n",
+"60            Chad  0.545455         11           6\n",
+"62            Fiji  0.533333         15           8\n",
+"86          Gambia  0.520833         48          25\n",
+"21        Pakistan  0.500000         88          44\n",
+"43           Benin  0.500000         26          13\n",
+"32     Ivory Coast  0.500000         14           7\n",
+"136       Botswana  0.488095         84          41\n",
+"78     El Salvador  0.484848         33          16\n",
+"106          Nepal  0.436782         87          38\n",
+"135  French Guiana  0.428571         28          12\n",
+"least outliers \n",
+"            Country  Outliers  N_Country  N_Outliers\n",
+"1         Lithuania  0.000000         47           0\n",
+"113         Iceland  0.000000         14           0\n",
+"119         Denmark  0.000000         16           0\n",
+"74   Czech Republic  0.000000         41           0\n",
+"28      South Korea  0.000000         11           0\n",
+"16      Netherlands  0.029851         67           2\n",
+"31      Afghanistan  0.041667         24           1\n",
+"134        Paraguay  0.043478         23           1\n",
+"105           Sudan  0.045455         66           3\n",
+"120      Kazakhstan  0.045455         88           4\n",
+"writing file\n",
+"iteration 2\n",
+"classifying...\n",
+"/import/c4dm-04/mariap/train_data_melodia_8_2.pickle\n",
+"0.178052269426\n",
+"detecting outliers...\n",
+"most outliers \n",
+"            Country  Outliers  N_Country  N_Outliers\n",
+"136        Botswana  0.615385         78          48\n",
+"86           Gambia  0.520833         48          25\n",
+"72      Ivory Coast  0.500000         14           7\n",
+"62             Fiji  0.466667         15           7\n",
+"43            Benin  0.461538         26          12\n",
+"20         Pakistan  0.451613         93          42\n",
+"17    French Guiana  0.428571         28          12\n",
+"14          Liberia  0.425000         40          17\n",
+"78      El Salvador  0.424242         33          14\n",
+"51   Western Sahara  0.414634         82          34\n",
+"least outliers \n",
+"                 Country  Outliers  N_Country  N_Outliers\n",
+"119              Denmark  0.000000         16           0\n",
+"113              Iceland  0.000000         14           0\n",
+"27           South Korea  0.000000         11           0\n",
+"1              Lithuania  0.000000         47           0\n",
+"31        Czech Republic  0.024390         41           1\n",
+"15           Netherlands  0.029851         67           2\n",
+"30           Afghanistan  0.041667         24           1\n",
+"105                Sudan  0.045455         66           3\n",
+"120           Kazakhstan  0.045455         88           4\n",
+"100  Antigua and Barbuda  0.047619         42           2\n",
+"writing file\n",
+"iteration 3\n",
+"classifying...\n",
+"/import/c4dm-04/mariap/train_data_melodia_8_3.pickle\n",
+"0.177243715126\n",
+"detecting outliers...\n",
+"most outliers \n",
+"            Country  Outliers  N_Country  N_Outliers\n",
+"136        Botswana  0.617284         81          50\n",
+"31      Ivory Coast  0.571429         14           8\n",
+"86           Gambia  0.541667         48          26\n",
+"43            Benin  0.538462         26          14\n",
+"62             Fiji  0.533333         15           8\n",
+"20         Pakistan  0.468750         96          45\n",
+"51   Western Sahara  0.439024         82          36\n",
+"14          Liberia  0.425000         40          17\n",
+"78      El Salvador  0.424242         33          14\n",
+"106           Nepal  0.416667         96          40\n",
+"least outliers \n",
+"                 Country  Outliers  N_Country  N_Outliers\n",
+"113              Iceland  0.000000         14           0\n",
+"30           Afghanistan  0.000000         24           0\n",
+"119              Denmark  0.000000         16           0\n",
+"134             Paraguay  0.000000         23           0\n",
+"27           South Korea  0.000000         11           0\n",
+"1              Lithuania  0.000000         47           0\n",
+"100  Antigua and Barbuda  0.023810         42           1\n",
+"74        Czech Republic  0.024390         41           1\n",
+"15           Netherlands  0.029851         67           2\n",
+"105                Sudan  0.045455         66           3\n",
+"writing file\n",
+"iteration 4\n",
+"classifying...\n",
+"/import/c4dm-04/mariap/train_data_melodia_8_4.pickle\n",
+"0.186733308352\n",
+"detecting outliers...\n",
+"most outliers \n",
+"            Country  Outliers  N_Country  N_Outliers\n",
+"60             Chad  0.727273         11           8\n",
+"136        Botswana  0.630952         84          53\n",
+"72      Ivory Coast  0.571429         14           8\n",
+"62             Fiji  0.533333         15           8\n",
+"86           Gambia  0.520833         48          25\n",
+"43            Benin  0.500000         26          13\n",
+"20         Pakistan  0.468085         94          44\n",
+"135   French Guiana  0.464286         28          13\n",
+"64       Mozambique  0.441176         34          15\n",
+"51   Western Sahara  0.439024         82          36\n",
+"least outliers \n",
+"            Country  Outliers  N_Country  N_Outliers\n",
+"1         Lithuania  0.000000         47           0\n",
+"27      South Korea  0.000000         11           0\n",
+"113         Iceland  0.000000         14           0\n",
+"119         Denmark  0.000000         16           0\n",
+"15      Netherlands  0.014925         67           1\n",
+"31   Czech Republic  0.024390         41           1\n",
+"112          Israel  0.030000        100           3\n",
+"30      Afghanistan  0.041667         24           1\n",
+"134        Paraguay  0.043478         23           1\n",
+"105           Sudan  0.045455         66           3\n",
+"writing file\n",
+"iteration 5\n",
+"classifying...\n",
+"/import/c4dm-04/mariap/train_data_melodia_8_5.pickle\n",
+"0.163125082162\n",
+"detecting outliers...\n",
+"most outliers \n",
+"         Country  Outliers  N_Country  N_Outliers\n",
+"136     Botswana  0.607143         84          51\n",
+"72   Ivory Coast  0.571429         14           8\n",
+"21      Pakistan  0.553191         94          52\n",
+"95          Chad  0.545455         11           6\n",
+"63          Fiji  0.533333         15           8\n",
+"86        Gambia  0.520833         48          25\n",
+"44         Benin  0.500000         26          13\n",
+"78   El Salvador  0.454545         33          15\n",
+"117     Zimbabwe  0.428571         14           6\n",
+"66        Uganda  0.418605         86          36\n",
+"least outliers \n",
+"            Country  Outliers  N_Country  N_Outliers\n",
+"119         Denmark  0.000000         16           0\n",
+"1         Lithuania  0.000000         47           0\n",
+"28      South Korea  0.000000         11           0\n",
+"113         Iceland  0.000000         14           0\n",
+"32   Czech Republic  0.024390         41           1\n",
+"16      Netherlands  0.029851         67           2\n",
+"31      Afghanistan  0.041667         24           1\n",
+"134        Paraguay  0.043478         23           1\n",
+"120      Kazakhstan  0.045455         88           4\n",
+"105           Sudan  0.045455         66           3\n",
+"writing file\n",
+"iteration 6\n",
+"classifying...\n",
+"/import/c4dm-04/mariap/train_data_melodia_8_6.pickle\n",
+"0.179816192246\n",
+"detecting outliers...\n",
+"most outliers \n",
+"            Country  Outliers  N_Country  N_Outliers\n",
+"136        Botswana  0.574468         94          54\n",
+"32      Ivory Coast  0.571429         14           8\n",
+"86           Gambia  0.520833         48          25\n",
+"21         Pakistan  0.516854         89          46\n",
+"62             Fiji  0.466667         15           7\n",
+"43            Benin  0.461538         26          12\n",
+"95             Chad  0.454545         11           5\n",
+"78      El Salvador  0.454545         33          15\n",
+"51   Western Sahara  0.439024         82          36\n",
+"63          Senegal  0.405405         37          15\n",
+"least outliers \n",
+"            Country  Outliers  N_Country  N_Outliers\n",
+"1         Lithuania  0.000000         47           0\n",
+"119         Denmark  0.000000         16           0\n",
+"28      South Korea  0.000000         11           0\n",
+"113         Iceland  0.000000         14           0\n",
+"16      Netherlands  0.014925         67           1\n",
+"74   Czech Republic  0.024390         41           1\n",
+"13          Germany  0.040000        100           4\n",
+"31      Afghanistan  0.041667         24           1\n",
+"105           Sudan  0.045455         66           3\n",
+"120      Kazakhstan  0.045455         88           4\n",
+"writing file\n"
 ]
 }
 ],
 "source": [
+"n_iters = 7\n",
+"OUTPUT_FILES = load_dataset.OUTPUT_FILES\n",
+"MAPPER_OUTPUT_FILES = mapper.OUTPUT_FILES\n",
 "for n in range(n_iters):\n",
 "    print \"iteration %d\" % n\n",
 "    CLASS_INPUT_FILES = [output_file.split('.pickle')[0]+'_'+str(n)+'.pickle' for \n",
-"                                 output_file in mapper.OUTPUT_FILES]\n",
+"                                 output_file in MAPPER_OUTPUT_FILES]\n",
-"    mapper.INPUT_FILES = OUTPUT_FILES\n",
+"    mapper.INPUT_FILES = [output_file.split('.pickle')[0]+'_'+str(n)+'.pickle' for \n",
-"    ldadata_list, Y, Yaudio = classification.load_data_from_pickle(CLASS_INPUT_FILES[2])\n",
+"                                 output_file in OUTPUT_FILES]\n",
-"    X = np.concatenate(ldadata_list, axis=1)\n",
+"    X, Y, Yaudio = classification.load_data_from_pickle(CLASS_INPUT_FILES[0])\n",
+"    #X = np.concatenate(ldadata_list, axis=1)\n",
 "    # classification and confusion\n",
 "    print \"classifying...\"\n",
 "    traininds, testinds = classification.get_train_test_indices(Yaudio)\n",
 "    X_train, Y_train, X_test, Y_test = classification.get_train_test_sets(X, Y, traininds, testinds)\n",
 "    accuracy, _ = classification.confusion_matrix(X_train, Y_train, X_test, Y_test, saveCF=False, plots=False)\n",
 "    outliers.print_most_least_outliers_topN(df_global, N=10)\n",
 "    \n",
 "    # write output\n",
 "    print \"writing file\"\n",
 "    df_global.to_csv('../data/outliers_'+str(n)+'.csv', index=False)"
-]
-},
-{
-"cell_type": "code",
-"execution_count": 4,
-"metadata": {
-"collapsed": true
-},
-"outputs": [],
-"source": [
-"X = np.concatenate(ldadata_list, axis=1)"
-]
-},
-{
-"cell_type": "code",
-"execution_count": 5,
-"metadata": {},
-"outputs": [
-{
-"data": {
-"text/plain": [
-"(8089, 381)"
-]
-},
-"execution_count": 5,
-"metadata": {},
-"output_type": "execute_result"
-}
-],
-"source": [
-"X.shape"
-]
-},
-{
-"cell_type": "code",
-"execution_count": 10,
-"metadata": {},
-"outputs": [
-{
-"name": "stdout",
-"output_type": "stream",
-"text": [
-"0.176354062249\n"
-]
-},
-{
-"name": "stderr",
-"output_type": "stream",
-"text": [
-"/homes/mp305/anaconda/lib/python2.7/site-packages/sklearn/metrics/classification.py:1113: UndefinedMetricWarning: F-score is ill-defined and being set to 0.0 in labels with no predicted samples.\n",
-"  'precision', 'predicted', average, warn_for)\n"
-]
-}
-],
-"source": [
-"#traininds, testinds = classification.get_train_test_indices()\n",
-"traininds = np.arange(5000)\n",
-"testinds = np.arange(len(X)-1600, len(X))\n",
-"X_train, Y_train, X_test, Y_test = classification.get_train_test_sets(X, Y, traininds, testinds)\n",
-"accuracy, _ = classification.confusion_matrix(X_train, Y_train, X_test, Y_test, saveCF=False, plots=False)\n",
-"print accuracy"
-]
-},
-{
-"cell_type": "code",
-"execution_count": 13,
-"metadata": {},
-"outputs": [
-{
-"name": "stdout",
-"output_type": "stream",
-"text": [
-"detecting outliers...\n",
-"most outliers \n",
-"            Country  Outliers\n",
-"136        Botswana  0.590909\n",
-"71      Ivory Coast  0.571429\n",
-"86           Gambia  0.541667\n",
-"43            Benin  0.538462\n",
-"62             Fiji  0.466667\n",
-"20         Pakistan  0.461538\n",
-"65           Uganda  0.437500\n",
-"14          Liberia  0.425000\n",
-"78      El Salvador  0.424242\n",
-"51   Western Sahara  0.421687\n",
-"least outliers \n",
-"            Country  Outliers\n",
-"119         Denmark  0.000000\n",
-"30      Afghanistan  0.000000\n",
-"113         Iceland  0.000000\n",
-"28       Tajikistan  0.000000\n",
-"74   Czech Republic  0.000000\n",
-"27      South Korea  0.000000\n",
-"1         Lithuania  0.000000\n",
-"15      Netherlands  0.014925\n",
-"121          Poland  0.040000\n",
-"134        Paraguay  0.043478\n"
-]
-}
-],
-"source": [
-"print \"detecting outliers...\"\n",
-"df_global, threshold, MD = outliers.get_outliers_df(X, Y, chi2thr=0.999)\n",
-"outliers.print_most_least_outliers_topN(df_global, N=10)"
 ]
 },
 {
 "cell_type": "markdown",
 "metadata": {},

Mercurial > hg > plosone_underreview

comparison notebooks/sensitivity_experiment.ipynb @ 55:98cd5317e504 branch-tests