wolffd@0: /***********************************************************************/
wolffd@0: /*                                                                     */
wolffd@0: /*   svm_learn_main.c                                                  */
wolffd@0: /*                                                                     */
wolffd@0: /*   Command line interface to the learning module of the              */
wolffd@0: /*   Support Vector Machine.                                           */
wolffd@0: /*                                                                     */
wolffd@0: /*   Author: Thorsten Joachims                                         */
wolffd@0: /*   Date: 02.07.02                                                    */
wolffd@0: /*                                                                     */
wolffd@0: /*   Copyright (c) 2000  Thorsten Joachims - All rights reserved       */
wolffd@0: /*                                                                     */
wolffd@0: /*   This software is available for non-commercial use only. It must   */
wolffd@0: /*   not be modified and distributed without prior permission of the   */
wolffd@0: /*   author. The author is not responsible for implications from the   */
wolffd@0: /*   use of this software.                                             */
wolffd@0: /*                                                                     */
wolffd@0: /***********************************************************************/
wolffd@0: 
wolffd@0: 
wolffd@0: /* uncomment, if you want to use svm-learn out of C++ */
wolffd@0: /* extern "C" { */
wolffd@0: # include "svm_common.h"
wolffd@0: # include "svm_learn.h"
wolffd@0: /* } */
wolffd@0: 
wolffd@0: char docfile[200];           /* file with training examples */
wolffd@0: char modelfile[200];         /* file for resulting classifier */
wolffd@0: char restartfile[200];       /* file with initial alphas */
wolffd@0: 
wolffd@0: void   read_input_parameters(int, char **, char *, char *, char *, long *, 
wolffd@0: 			     LEARN_PARM *, KERNEL_PARM *);
wolffd@0: void   wait_any_key();
wolffd@0: void   print_help();
wolffd@0: 
wolffd@0: 
wolffd@0: 
wolffd@0: int main (int argc, char* argv[])
wolffd@0: {  
wolffd@0:   DOC **docs;  /* training examples */
wolffd@0:   long totwords,totdoc,i;
wolffd@0:   double *target;
wolffd@0:   double *alpha_in=NULL;
wolffd@0:   KERNEL_CACHE *kernel_cache;
wolffd@0:   LEARN_PARM learn_parm;
wolffd@0:   KERNEL_PARM kernel_parm;
wolffd@0:   MODEL *model=(MODEL *)my_malloc(sizeof(MODEL));
wolffd@0: 
wolffd@0:   read_input_parameters(argc,argv,docfile,modelfile,restartfile,&verbosity,
wolffd@0: 			&learn_parm,&kernel_parm);
wolffd@0:   read_documents(docfile,&docs,&target,&totwords,&totdoc);
wolffd@0:   if(restartfile[0]) alpha_in=read_alphas(restartfile,totdoc);
wolffd@0: 
wolffd@0:   if(kernel_parm.kernel_type == LINEAR) { /* don't need the cache */
wolffd@0:     kernel_cache=NULL;
wolffd@0:   }
wolffd@0:   else {
wolffd@0:     /* Always get a new kernel cache. It is not possible to use the
wolffd@0:        same cache for two different training runs */
wolffd@0:     kernel_cache=kernel_cache_init(totdoc,learn_parm.kernel_cache_size);
wolffd@0:   }
wolffd@0: 
wolffd@0:   if(learn_parm.type == CLASSIFICATION) {
wolffd@0:     svm_learn_classification(docs,target,totdoc,totwords,&learn_parm,
wolffd@0: 			     &kernel_parm,kernel_cache,model,alpha_in);
wolffd@0:   }
wolffd@0:   else if(learn_parm.type == REGRESSION) {
wolffd@0:     svm_learn_regression(docs,target,totdoc,totwords,&learn_parm,
wolffd@0: 			 &kernel_parm,&kernel_cache,model);
wolffd@0:   }
wolffd@0:   else if(learn_parm.type == RANKING) {
wolffd@0:     svm_learn_ranking(docs,target,totdoc,totwords,&learn_parm,
wolffd@0: 		      &kernel_parm,&kernel_cache,model);
wolffd@0:   }
wolffd@0:   else if(learn_parm.type == OPTIMIZATION) {
wolffd@0:     svm_learn_optimization(docs,target,totdoc,totwords,&learn_parm,
wolffd@0: 			   &kernel_parm,kernel_cache,model,alpha_in);
wolffd@0:   }
wolffd@0: 
wolffd@0:   if(kernel_cache) {
wolffd@0:     /* Free the memory used for the cache. */
wolffd@0:     kernel_cache_cleanup(kernel_cache);
wolffd@0:   }
wolffd@0: 
wolffd@0:   /* Warning: The model contains references to the original data 'docs'.
wolffd@0:      If you want to free the original data, and only keep the model, you 
wolffd@0:      have to make a deep copy of 'model'. */
wolffd@0:   /* deep_copy_of_model=copy_model(model); */
wolffd@0:   write_model(modelfile,model);
wolffd@0: 
wolffd@0:   free(alpha_in);
wolffd@0:   free_model(model,0);
wolffd@0:   for(i=0;i<totdoc;i++) 
wolffd@0:     free_example(docs[i],1);
wolffd@0:   free(docs);
wolffd@0:   free(target);
wolffd@0: 
wolffd@0:   return(0);
wolffd@0: }
wolffd@0: 
wolffd@0: /*---------------------------------------------------------------------------*/
wolffd@0: 
wolffd@0: void read_input_parameters(int argc,char *argv[],char *docfile,char *modelfile,
wolffd@0: 			   char *restartfile,long *verbosity,
wolffd@0: 			   LEARN_PARM *learn_parm,KERNEL_PARM *kernel_parm)
wolffd@0: {
wolffd@0:   long i;
wolffd@0:   char type[100];
wolffd@0:   
wolffd@0:   /* set default */
wolffd@0:   strcpy (modelfile, "svm_model");
wolffd@0:   strcpy (learn_parm->predfile, "trans_predictions");
wolffd@0:   strcpy (learn_parm->alphafile, "");
wolffd@0:   strcpy (restartfile, "");
wolffd@0:   (*verbosity)=1;
wolffd@0:   learn_parm->biased_hyperplane=1;
wolffd@0:   learn_parm->sharedslack=0;
wolffd@0:   learn_parm->remove_inconsistent=0;
wolffd@0:   learn_parm->skip_final_opt_check=0;
wolffd@0:   learn_parm->svm_maxqpsize=10;
wolffd@0:   learn_parm->svm_newvarsinqp=0;
wolffd@0:   learn_parm->svm_iter_to_shrink=-9999;
wolffd@0:   learn_parm->maxiter=100000;
wolffd@0:   learn_parm->kernel_cache_size=40;
wolffd@0:   learn_parm->svm_c=0.0;
wolffd@0:   learn_parm->eps=0.1;
wolffd@0:   learn_parm->transduction_posratio=-1.0;
wolffd@0:   learn_parm->svm_costratio=1.0;
wolffd@0:   learn_parm->svm_costratio_unlab=1.0;
wolffd@0:   learn_parm->svm_unlabbound=1E-5;
wolffd@0:   learn_parm->epsilon_crit=0.001;
wolffd@0:   learn_parm->epsilon_a=1E-15;
wolffd@0:   learn_parm->compute_loo=0;
wolffd@0:   learn_parm->rho=1.0;
wolffd@0:   learn_parm->xa_depth=0;
wolffd@0:   kernel_parm->kernel_type=0;
wolffd@0:   kernel_parm->poly_degree=3;
wolffd@0:   kernel_parm->rbf_gamma=1.0;
wolffd@0:   kernel_parm->coef_lin=1;
wolffd@0:   kernel_parm->coef_const=1;
wolffd@0:   strcpy(kernel_parm->custom,"empty");
wolffd@0:   strcpy(type,"c");
wolffd@0: 
wolffd@0:   for(i=1;(i<argc) && ((argv[i])[0] == '-');i++) {
wolffd@0:     switch ((argv[i])[1]) 
wolffd@0:       { 
wolffd@0:       case '?': print_help(); exit(0);
wolffd@0:       case 'z': i++; strcpy(type,argv[i]); break;
wolffd@0:       case 'v': i++; (*verbosity)=atol(argv[i]); break;
wolffd@0:       case 'b': i++; learn_parm->biased_hyperplane=atol(argv[i]); break;
wolffd@0:       case 'i': i++; learn_parm->remove_inconsistent=atol(argv[i]); break;
wolffd@0:       case 'f': i++; learn_parm->skip_final_opt_check=!atol(argv[i]); break;
wolffd@0:       case 'q': i++; learn_parm->svm_maxqpsize=atol(argv[i]); break;
wolffd@0:       case 'n': i++; learn_parm->svm_newvarsinqp=atol(argv[i]); break;
wolffd@0:       case '#': i++; learn_parm->maxiter=atol(argv[i]); break;
wolffd@0:       case 'h': i++; learn_parm->svm_iter_to_shrink=atol(argv[i]); break;
wolffd@0:       case 'm': i++; learn_parm->kernel_cache_size=atol(argv[i]); break;
wolffd@0:       case 'c': i++; learn_parm->svm_c=atof(argv[i]); break;
wolffd@0:       case 'w': i++; learn_parm->eps=atof(argv[i]); break;
wolffd@0:       case 'p': i++; learn_parm->transduction_posratio=atof(argv[i]); break;
wolffd@0:       case 'j': i++; learn_parm->svm_costratio=atof(argv[i]); break;
wolffd@0:       case 'e': i++; learn_parm->epsilon_crit=atof(argv[i]); break;
wolffd@0:       case 'o': i++; learn_parm->rho=atof(argv[i]); break;
wolffd@0:       case 'k': i++; learn_parm->xa_depth=atol(argv[i]); break;
wolffd@0:       case 'x': i++; learn_parm->compute_loo=atol(argv[i]); break;
wolffd@0:       case 't': i++; kernel_parm->kernel_type=atol(argv[i]); break;
wolffd@0:       case 'd': i++; kernel_parm->poly_degree=atol(argv[i]); break;
wolffd@0:       case 'g': i++; kernel_parm->rbf_gamma=atof(argv[i]); break;
wolffd@0:       case 's': i++; kernel_parm->coef_lin=atof(argv[i]); break;
wolffd@0:       case 'r': i++; kernel_parm->coef_const=atof(argv[i]); break;
wolffd@0:       case 'u': i++; strcpy(kernel_parm->custom,argv[i]); break;
wolffd@0:       case 'l': i++; strcpy(learn_parm->predfile,argv[i]); break;
wolffd@0:       case 'a': i++; strcpy(learn_parm->alphafile,argv[i]); break;
wolffd@0:       case 'y': i++; strcpy(restartfile,argv[i]); break;
wolffd@0:       default: printf("\nUnrecognized option %s!\n\n",argv[i]);
wolffd@0: 	       print_help();
wolffd@0: 	       exit(0);
wolffd@0:       }
wolffd@0:   }
wolffd@0:   if(i>=argc) {
wolffd@0:     printf("\nNot enough input parameters!\n\n");
wolffd@0:     wait_any_key();
wolffd@0:     print_help();
wolffd@0:     exit(0);
wolffd@0:   }
wolffd@0:   strcpy (docfile, argv[i]);
wolffd@0:   if((i+1)<argc) {
wolffd@0:     strcpy (modelfile, argv[i+1]);
wolffd@0:   }
wolffd@0:   if(learn_parm->svm_iter_to_shrink == -9999) {
wolffd@0:     if(kernel_parm->kernel_type == LINEAR) 
wolffd@0:       learn_parm->svm_iter_to_shrink=2;
wolffd@0:     else
wolffd@0:       learn_parm->svm_iter_to_shrink=100;
wolffd@0:   }
wolffd@0:   if(strcmp(type,"c")==0) {
wolffd@0:     learn_parm->type=CLASSIFICATION;
wolffd@0:   }
wolffd@0:   else if(strcmp(type,"r")==0) {
wolffd@0:     learn_parm->type=REGRESSION;
wolffd@0:   }
wolffd@0:   else if(strcmp(type,"p")==0) {
wolffd@0:     learn_parm->type=RANKING;
wolffd@0:   }
wolffd@0:   else if(strcmp(type,"o")==0) {
wolffd@0:     learn_parm->type=OPTIMIZATION;
wolffd@0:   }
wolffd@0:   else if(strcmp(type,"s")==0) {
wolffd@0:     learn_parm->type=OPTIMIZATION;
wolffd@0:     learn_parm->sharedslack=1;
wolffd@0:   }
wolffd@0:   else {
wolffd@0:     printf("\nUnknown type '%s': Valid types are 'c' (classification), 'r' regession, and 'p' preference ranking.\n",type);
wolffd@0:     wait_any_key();
wolffd@0:     print_help();
wolffd@0:     exit(0);
wolffd@0:   }    
wolffd@0:   if((learn_parm->skip_final_opt_check) 
wolffd@0:      && (kernel_parm->kernel_type == LINEAR)) {
wolffd@0:     printf("\nIt does not make sense to skip the final optimality check for linear kernels.\n\n");
wolffd@0:     learn_parm->skip_final_opt_check=0;
wolffd@0:   }    
wolffd@0:   if((learn_parm->skip_final_opt_check) 
wolffd@0:      && (learn_parm->remove_inconsistent)) {
wolffd@0:     printf("\nIt is necessary to do the final optimality check when removing inconsistent \nexamples.\n");
wolffd@0:     wait_any_key();
wolffd@0:     print_help();
wolffd@0:     exit(0);
wolffd@0:   }    
wolffd@0:   if((learn_parm->svm_maxqpsize<2)) {
wolffd@0:     printf("\nMaximum size of QP-subproblems not in valid range: %ld [2..]\n",learn_parm->svm_maxqpsize); 
wolffd@0:     wait_any_key();
wolffd@0:     print_help();
wolffd@0:     exit(0);
wolffd@0:   }
wolffd@0:   if((learn_parm->svm_maxqpsize<learn_parm->svm_newvarsinqp)) {
wolffd@0:     printf("\nMaximum size of QP-subproblems [%ld] must be larger than the number of\n",learn_parm->svm_maxqpsize); 
wolffd@0:     printf("new variables [%ld] entering the working set in each iteration.\n",learn_parm->svm_newvarsinqp); 
wolffd@0:     wait_any_key();
wolffd@0:     print_help();
wolffd@0:     exit(0);
wolffd@0:   }
wolffd@0:   if(learn_parm->svm_iter_to_shrink<1) {
wolffd@0:     printf("\nMaximum number of iterations for shrinking not in valid range: %ld [1,..]\n",learn_parm->svm_iter_to_shrink);
wolffd@0:     wait_any_key();
wolffd@0:     print_help();
wolffd@0:     exit(0);
wolffd@0:   }
wolffd@0:   if(learn_parm->svm_c<0) {
wolffd@0:     printf("\nThe C parameter must be greater than zero!\n\n");
wolffd@0:     wait_any_key();
wolffd@0:     print_help();
wolffd@0:     exit(0);
wolffd@0:   }
wolffd@0:   if(learn_parm->transduction_posratio>1) {
wolffd@0:     printf("\nThe fraction of unlabeled examples to classify as positives must\n");
wolffd@0:     printf("be less than 1.0 !!!\n\n");
wolffd@0:     wait_any_key();
wolffd@0:     print_help();
wolffd@0:     exit(0);
wolffd@0:   }
wolffd@0:   if(learn_parm->svm_costratio<=0) {
wolffd@0:     printf("\nThe COSTRATIO parameter must be greater than zero!\n\n");
wolffd@0:     wait_any_key();
wolffd@0:     print_help();
wolffd@0:     exit(0);
wolffd@0:   }
wolffd@0:   if(learn_parm->epsilon_crit<=0) {
wolffd@0:     printf("\nThe epsilon parameter must be greater than zero!\n\n");
wolffd@0:     wait_any_key();
wolffd@0:     print_help();
wolffd@0:     exit(0);
wolffd@0:   }
wolffd@0:   if(learn_parm->rho<0) {
wolffd@0:     printf("\nThe parameter rho for xi/alpha-estimates and leave-one-out pruning must\n");
wolffd@0:     printf("be greater than zero (typically 1.0 or 2.0, see T. Joachims, Estimating the\n");
wolffd@0:     printf("Generalization Performance of an SVM Efficiently, ICML, 2000.)!\n\n");
wolffd@0:     wait_any_key();
wolffd@0:     print_help();
wolffd@0:     exit(0);
wolffd@0:   }
wolffd@0:   if((learn_parm->xa_depth<0) || (learn_parm->xa_depth>100)) {
wolffd@0:     printf("\nThe parameter depth for ext. xi/alpha-estimates must be in [0..100] (zero\n");
wolffd@0:     printf("for switching to the conventional xa/estimates described in T. Joachims,\n");
wolffd@0:     printf("Estimating the Generalization Performance of an SVM Efficiently, ICML, 2000.)\n");
wolffd@0:     wait_any_key();
wolffd@0:     print_help();
wolffd@0:     exit(0);
wolffd@0:   }
wolffd@0: }
wolffd@0: 
wolffd@0: void wait_any_key()
wolffd@0: {
wolffd@0:   printf("\n(more)\n");
wolffd@0:   (void)getc(stdin);
wolffd@0: }
wolffd@0: 
wolffd@0: void print_help()
wolffd@0: {
wolffd@0:   printf("\nSVM-light %s: Support Vector Machine, learning module     %s\n",VERSION,VERSION_DATE);
wolffd@0:   copyright_notice();
wolffd@0:   printf("   usage: svm_learn [options] example_file model_file\n\n");
wolffd@0:   printf("Arguments:\n");
wolffd@0:   printf("         example_file-> file with training data\n");
wolffd@0:   printf("         model_file  -> file to store learned decision rule in\n");
wolffd@0: 
wolffd@0:   printf("General options:\n");
wolffd@0:   printf("         -?          -> this help\n");
wolffd@0:   printf("         -v [0..3]   -> verbosity level (default 1)\n");
wolffd@0:   printf("Learning options:\n");
wolffd@0:   printf("         -z {c,r,p}  -> select between classification (c), regression (r),\n");
wolffd@0:   printf("                        and preference ranking (p) (default classification)\n");
wolffd@0:   printf("         -c float    -> C: trade-off between training error\n");
wolffd@0:   printf("                        and margin (default [avg. x*x]^-1)\n");
wolffd@0:   printf("         -w [0..]    -> epsilon width of tube for regression\n");
wolffd@0:   printf("                        (default 0.1)\n");
wolffd@0:   printf("         -j float    -> Cost: cost-factor, by which training errors on\n");
wolffd@0:   printf("                        positive examples outweight errors on negative\n");
wolffd@0:   printf("                        examples (default 1) (see [4])\n");
wolffd@0:   printf("         -b [0,1]    -> use biased hyperplane (i.e. x*w+b>0) instead\n");
wolffd@0:   printf("                        of unbiased hyperplane (i.e. x*w>0) (default 1)\n");
wolffd@0:   printf("         -i [0,1]    -> remove inconsistent training examples\n");
wolffd@0:   printf("                        and retrain (default 0)\n");
wolffd@0:   printf("Performance estimation options:\n");
wolffd@0:   printf("         -x [0,1]    -> compute leave-one-out estimates (default 0)\n");
wolffd@0:   printf("                        (see [5])\n");
wolffd@0:   printf("         -o ]0..2]   -> value of rho for XiAlpha-estimator and for pruning\n");
wolffd@0:   printf("                        leave-one-out computation (default 1.0) (see [2])\n");
wolffd@0:   printf("         -k [0..100] -> search depth for extended XiAlpha-estimator \n");
wolffd@0:   printf("                        (default 0)\n");
wolffd@0:   printf("Transduction options (see [3]):\n");
wolffd@0:   printf("         -p [0..1]   -> fraction of unlabeled examples to be classified\n");
wolffd@0:   printf("                        into the positive class (default is the ratio of\n");
wolffd@0:   printf("                        positive and negative examples in the training data)\n");
wolffd@0:   printf("Kernel options:\n");
wolffd@0:   printf("         -t int      -> type of kernel function:\n");
wolffd@0:   printf("                        0: linear (default)\n");
wolffd@0:   printf("                        1: polynomial (s a*b+c)^d\n");
wolffd@0:   printf("                        2: radial basis function exp(-gamma ||a-b||^2)\n");
wolffd@0:   printf("                        3: sigmoid tanh(s a*b + c)\n");
wolffd@0:   printf("                        4: user defined kernel from kernel.h\n");
wolffd@0:   printf("         -d int      -> parameter d in polynomial kernel\n");
wolffd@0:   printf("         -g float    -> parameter gamma in rbf kernel\n");
wolffd@0:   printf("         -s float    -> parameter s in sigmoid/poly kernel\n");
wolffd@0:   printf("         -r float    -> parameter c in sigmoid/poly kernel\n");
wolffd@0:   printf("         -u string   -> parameter of user defined kernel\n");
wolffd@0:   printf("Optimization options (see [1]):\n");
wolffd@0:   printf("         -q [2..]    -> maximum size of QP-subproblems (default 10)\n");
wolffd@0:   printf("         -n [2..q]   -> number of new variables entering the working set\n");
wolffd@0:   printf("                        in each iteration (default n = q). Set n<q to prevent\n");
wolffd@0:   printf("                        zig-zagging.\n");
wolffd@0:   printf("         -m [5..]    -> size of cache for kernel evaluations in MB (default 40)\n");
wolffd@0:   printf("                        The larger the faster...\n");
wolffd@0:   printf("         -e float    -> eps: Allow that error for termination criterion\n");
wolffd@0:   printf("                        [y [w*x+b] - 1] >= eps (default 0.001)\n");
wolffd@0:   printf("         -y [0,1]    -> restart the optimization from alpha values in file\n");
wolffd@0:   printf("                        specified by -a option. (default 0)\n");
wolffd@0:   printf("         -h [5..]    -> number of iterations a variable needs to be\n"); 
wolffd@0:   printf("                        optimal before considered for shrinking (default 100)\n");
wolffd@0:   printf("         -f [0,1]    -> do final optimality check for variables removed\n");
wolffd@0:   printf("                        by shrinking. Although this test is usually \n");
wolffd@0:   printf("                        positive, there is no guarantee that the optimum\n");
wolffd@0:   printf("                        was found if the test is omitted. (default 1)\n");
wolffd@0:   printf("         -y string   -> if option is given, reads alphas from file with given\n");
wolffd@0:   printf("                        and uses them as starting point. (default 'disabled')\n");
wolffd@0:   printf("         -# int      -> terminate optimization, if no progress after this\n");
wolffd@0:   printf("                        number of iterations. (default 100000)\n");
wolffd@0:   printf("Output options:\n");
wolffd@0:   printf("         -l string   -> file to write predicted labels of unlabeled\n");
wolffd@0:   printf("                        examples into after transductive learning\n");
wolffd@0:   printf("         -a string   -> write all alphas to this file after learning\n");
wolffd@0:   printf("                        (in the same order as in the training set)\n");
wolffd@0:   wait_any_key();
wolffd@0:   printf("\nMore details in:\n");
wolffd@0:   printf("[1] T. Joachims, Making Large-Scale SVM Learning Practical. Advances in\n");
wolffd@0:   printf("    Kernel Methods - Support Vector Learning, B. Sch�lkopf and C. Burges and\n");
wolffd@0:   printf("    A. Smola (ed.), MIT Press, 1999.\n");
wolffd@0:   printf("[2] T. Joachims, Estimating the Generalization performance of an SVM\n");
wolffd@0:   printf("    Efficiently. International Conference on Machine Learning (ICML), 2000.\n");
wolffd@0:   printf("[3] T. Joachims, Transductive Inference for Text Classification using Support\n");
wolffd@0:   printf("    Vector Machines. International Conference on Machine Learning (ICML),\n");
wolffd@0:   printf("    1999.\n");
wolffd@0:   printf("[4] K. Morik, P. Brockhausen, and T. Joachims, Combining statistical learning\n");
wolffd@0:   printf("    with a knowledge-based approach - A case study in intensive care  \n");
wolffd@0:   printf("    monitoring. International Conference on Machine Learning (ICML), 1999.\n");
wolffd@0:   printf("[5] T. Joachims, Learning to Classify Text Using Support Vector\n");
wolffd@0:   printf("    Machines: Methods, Theory, and Algorithms. Dissertation, Kluwer,\n");
wolffd@0:   printf("    2002.\n\n");
wolffd@0: }
wolffd@0: 
wolffd@0: