Proc logistic

La proc logistic esegue analisi di regressione logistica. Il comando principale è model dove viene specificato il modello logistico. Numerose sono le opzioni che determinano le caratteristiche del modello e il tipo di output generato.

Ad esempio è possibile specificare il tipo di selezione  e inserimento delle variabili  esplicative(backward, stepwise, score), visualizzare plot di tipo diagnostico, escludere l'intercetta e molti altri. Informazioni sul modello (probabililtà previste,residui , intervalli di confidenza) possono essere salvare su un nuovo data-set per successive analisi.

Vediamo un semplice esempio in cui prima verifichiamo quali sono le "migliori variabili esplicative" e poi eseguiamo la procedura logistica vera e propria:

data plsm;                                                      /*importo i dati*/
infile "D:\dativ\plasma.dat" firstobs=2 ;
input x1 x2 y;
run;
proc logistic data=plsm descending;                      /*avvio proc logistic e specifico selection=score che mi permette di selezionare */
model y=x1 x2 /selection=score;                            /* le migliori variabili esplicative dal punto di vista del chi-quadro*/
run;

Qui si trova l'output in base al quale selezioniamo la variabile esplicativa x1

proc logistic data=plsm descending;               /*grazie alla procedura precedente tengo solo la x1*/
model y=x1 / iplots;                                                /*specifico il modello e visualizzo plot per la diagnotica (residui pearson..ecc)*/
output out=pred p=phat lower=lcl upper=ucl ;  /*creo data.set nuovo con: le probabilta previste dal modello relativi intervalli di confidenza*/
run;
proc print data=pred;
title2 'probabilita previste e limiti di confidenza';
run;

L'output si può trovare qui

Nel caso che le variabili di risposta dicotomiche siano gia raccolte a frequenze si può immettere direttamente il numero di eventi (che sono di tipo dicotomico) rispettando la seguente sintassi.

 model r/n= x1 x2 ....;

dove r è la frequenza e n è il numero di prove per ogni combinazione di valori delle variabile osservate