Interpretare le statistiche Web

Andrea Giuliano

Abstract


Espressioni comuni come “sono collegato al sito tal dei tali”, perfettamente accettabili e chiare nel contesto di tutti i giorni, in un contesto come quello delle statistiche Web possono creare più di un equivoco. In particolare, quando sto leggendo una pagina visualizzata dal mio browser, non sono affatto “collegato al sito”. Quando accedo col browser ad una pagina Web di un sito, il browser inoltra al server Web un’opportuna richiesta, e il server risponde inviando la pagina in questione, oppure segnalando eventuali situazioni di errore. Il protocollo HTTP non stabilisce delle sessioni, ma apre una connessione per ogni file da trasferire, e la chiude appena terminato il trasferimento (a differenza del protocollo FTP che, nel corso di una sessione, consente di trasferire un numero qualsiasi di file e fare anche altre operazioni). Per ciascuna richiesta che riceve, un server Web registra molte informazioni in un apposito file di log. Esistono numerosi programmi, sia commerciali che gratuiti, che analizzano i file di log ricavandone una vasta serie di dati statistici. Spesso i responsabili amministrativi si aspettano di poter estrapolare da questi dati informazioni preziose circa l’uso e il gradimento dei loro siti Web. Ma, in realtà, l’interpretazione di questi dati risulta attendibile solo alla luce di considerazioni molto restrittive. Ad esempio, un’importante informazione registrata normalmente da un server Web è l’indirizzo IP del client, cioè del sistema che, attraverso il protocollo HTTP, ha richiesto al server stesso un qualche file. Verrebbe spontaneo pensare a questo indirizzo come a un  visitatore: in fondo, gli indirizzi IP sono notoriamente univoci, per cui due persone che accedono al sito non possono avere lo stesso indirizzo IP. In effetti, quasi tutti gli analizzatori di log Web definiscono visitatore un indirizzo IP univoco, e riportano tabelle in cui sono conteggiati, fra l’altro, gli indirizzi IP distinti registrati nei log in un certo periodo di tempo. Da queste tabelle si può pensare di ricavare un’idea approssimativa di quante persone accedono al sistema nell’unità di tempo. Sarebbe molto bello se fosse così, ma da quando esistono i firewall questo quadro idilliaco è del tutto irrealistico. Perché, in questo caso, il server può registrare nel file di log solo l’indirizzo del firewall, senza essere in grado di vedere tutti gli altri indirizzi IP attivi dietro il firewall stesso. Questo è uno dei tanti problemi che rendono il tema delle statistiche Web un argomento piuttosto complesso.

Keyword


log; client-server; sessione; cache; URL parametrizzate; firewall;

Full Text

PDF

Refback

  • Non ci sono refbacks, per ora.