6 - Web Analytics Web Mining - Università degli studi di Pavia

Università dell’Insubria
Facoltà di Scienze Matematiche, Fisiche e Naturali – Como
Corso di Laurea in Scienze e Tecnologie dell’Informazione
Lezioni di Linguaggi per il Web I
A.A. 2011/2012
6 - Web Analytics Web Mining
Altre cose buone a sapersi
• http://www.gioiacommunica.com/ Gioia Feliziani sta
cercando tesisti per sviluppare portale di raccolta fondi per il
non profit
• http://www.gioiacommunica.com/it/2010/06/marketing-2-0-oinnovation-marketing-workshop-alluniverista-di-como/ sua
lezione a Como dedicata al marketing 2.0
• http://www.ecommerceforum.it/
• importante evento a Milano 18 maggio su ecommerce
2
Altre cose buone a sapersi
La sessione web
• http://www.masternewmedia.org/it/come-rendere-piu-velocile-tue-pagine-web-ritardando-il-caricamento-di-javascript-ewidget-parte-1/
• http://www.masternewmedia.org/it/come-rendere-piu-velocile-tue-pagine-web-ritardando-il-caricamento-di-javascript-ewidget-parte-2/
• http://www.informationarchitecture.it/index.shtml lettura
consigliata per capire come creare architettura di
informazione in un sito
• È l’arco di tempo continuo trascorso da un utente su un sito
Web. Una sessione termina quando l’utente chiude il
browser, esce volontariamente dal sito o dopo un periodo di
tempo determinato.
• Nei programmi di statistiche una sessione calcolata sul
tempo è generalmente dichiarata conclusa tra i 20 e i 30
minuti.
• La sessione è un parametro fondamentale per la
determinazione delle visite poiché più sessioni
corrispondono a più visite.
• Nella parte di PHP vedremo come gestire la sessione.
3
4
WEB ANALYTICS
WEB ANALYTICS
• dopo tutti questi sforzi, cosa combinano gli utenti sul
mio sito web?
possiamo determinare in particolare:
• La web analytics, o semplicemente le statistiche del nostro
sito, ci possono dire molto dei nostri visitatori:
•
•
•
•
•
•
la loro provenienza (link inbound, motore di ricerca,
keyword, richiesta diretta, newsletter, etc.)
la loro provenienza geografica (Continente, Nazione,
Regione, Provincia, Città)
la loro permanenza sulle nostre pagine
la pagina di entrata e di uscita
i file più scaricati
sistemi software che utilizzano (sistema operativo, browser,
Feed reader, etc.)
5
–
–
–
–
–
Chi sono I visitatori del sito?
Da dove provengono?
Cosa fanno?
Cosa cercano?
Perchè vanno via?
obiettivo è ottenere dei numeri per avere un quadro completo
della situazione e prendere decisioni in poco tempo
6
1
Software di web analytics
Google ANALYTICS
I software si dividono in due tipi:
- analisi dei file di log (file di registro che annotano
tutto quello che succede) dei web server
- inserimento di un codice di monitoraggio in
Javascript in tutte le pagine del sito web
• servizio molto potente di Google per fare Web Analytics
• registrarsi in Google Analytics (www.google.com/analytics/itIT/) e leggere le istruzioni per trovare il codice da inserire
nella pagina HTML
Entrambi hanno pro e contro anche se oramai
vengono preferiti i secondi.
7
8
Dashboard (cruscotto) Google ANALYTICS
http://www.shinystat.com/it
•
•
•
•
•
•
•
•
•
•
•
•
<TABLE>
<TBODY>
<DIV align=center>
<!-- Inizio Codice Shinystat DA PIAZZARE IN FONDO ALLA PAGINA-->
<br><br>
<script type="text/javascript" language="JavaScript"
src="http://codice.shinystat.com/cgibin/getcod.cgi?USER=Robe"></script>
<noscript>
<a href="http://www.shinystat.com/it" target="_top">
<img src="http://www.shinystat.com/cgi-bin/shinystat.cgi?USER=Robe"
alt="Statistiche" border="0"></a>
</noscript>
<!-- Fine Codice Shinystat -->
</TBODY></TABLE>
9
Alcune semplici statistiche
10
1. quantificare il pubblico
1. quantificare il pubblico
2. tipologia degli accessi
3. comportamento degli utenti
• VISITE
quante volte uno o più utenti hanno visitato il sito Web. Più
precisamente si intendeil numero di utenti che ha visitato
almeno una pagina del sito dando avvio ad una sessione di
tempo
Per approfondimenti
• http://www.iab.it/
• http://blog.webanalytics.it/category/iab/
• VISITATORI UNICI
il numero di visitatori complessivo di un sito calcolati una volta
sola, a prescindere dal numero di volte al giorno o a
settimana che un visitatore ha visitato una o più pagine
pagina Web
11
12
2
1. quantificare il pubblico
2. tipologia degli accessi
• PAGINE VISTE
un elemento molto utilizzato nelle campagne pubblicitarie, sono
il numero di volte che una pagina è stata caricata all’interno
di un browser e visualizzata dall’utente, indipendentemente
dalla sessione
LINK DIRETTI
visite ricevute sul sito senza passare per un motore di ricerca o
altro sito
• PAGINE VISTE UNICHE
lo stesso concetto esposto sopra ma relativo ad una sessione
REFERRER
mostrano le pagine esterne dalle quali gli utenti hanno
raggiunto il sito cliccando su un link, mostra più di tutti la
“diffusione” del sito sul Web
MOTORE DI RICERCA USATO
KEYWORD
se il referrer della visita è un motore di ricerca le statistiche
riportano anche le parole chiave o keywords che l’utente ha
digitato per raggiungere la vostra pagina
13
3. comportamento degli utenti
14
3. comportamento degli utenti
VISITE PER VISITATORE
numero di visite eseguire da ogni visitatore unico, ossia il tasso
con cui un utente torna sul sito durante il periodo di tempo
coperto dalle statistiche
PAGINE VISTE PER VISITA
media delle pagine visualizzate da singolo utente in ogni visita
DURATA DELLE VISITE
tempo medio speso da un utente sulle pagine del vostro sito
TIPO DI BROWSER USATO
RISOLUZIONE DELLO SCHERMO DI UTENTE
FREQUENZA DI RIMBALZO
percentuale delle visite uniche su una sola pagina del sito,
ovvero la percentuale degli utenti che, giungendo da un
motore di ricerca o da un altro sito, hanno esaminato il
contenuto della pagina, lo hanno giudicato di scarso
interesse e hanno chiuso immediatamente la finestra
PERCORSI PRINCIPALI
che gli utenti del sito hanno seguito nelle loro visite
PAGINE DI ENTRATA E DI USCITA
15
16
DATA MINING
DATA MINING
La risposta all’esigenza di analisi delle enormi quantità di dati
raccolti è rappresentata dal Data Mining.
Il data mining è il processo di analisi, svolto in modo
semiautomatico, di una grande quantità di dati grezzi al fine
di scoprire il modello (“pattern”) che li governa, o una regola
significativa, da cui ricavare conoscenze utili applicabili al
nostro contesto operativo (come ad esempio previsioni e
classificazioni).
17
•Problema: la capacità di raccogliere e memorizzare dati ha
largamente superato la capacità umana di analizzarli. Siamo
assetati di conoscenza ma anneghiamo nei dati.
•Soluzione: il Data Mining ha come scopo la progettazione di
strumenti per trovare informazione in una grossa banca dati, in
particolare è un processo di selezione, esplorazione,
modellazione di grandi masse di dati per scoprire regolarità o
relazioni non note a priori allo scopo di ottenere un risultato chiaro
e utile al proprietario dei dati.
•Database: Cercare un numero di telefono nell'elenco, trovare le
vendite di ogni prodotto suddivise per punto vendita; l’utente sa
già quello che cerca
•Data Mining: Scoprire che alcuni cognomi sono molto comuni in
specifiche aree dell'Italia, sapere quali sono le caratteristiche dei
punti vendita con redditività alta; l'utente vuole scoprire la causa di
un effetto.
18
3
Le fasi di un processo di Data Mining
DATA MINING e DATABASE
• Database: quanti clienti hanno età tra 40 e 50 anni e compra
DietCoke
• Datamining: quali sono le caratteristiche dei miei clienti come
fasce d'età, prodotti acquistati, somme spesa.
• Database: quali documenti contengono la parola "sanità"
• Datamining: quali sono gli argomenti trattati da un insieme di
pagine web
• Database: quante automobili produco in un'anno
• Datamining: quali sono i miei concorrenti e come evolve la
loro attività
Processo continuo:
a) Definizione obiettivi
b) Selezione,organizzazione e trattamento dei dati
c) Analisi esplorativa dei dati
d) Scelta del modello applicativo
e) Elaborazione
f) Valutazione ed interpretazione dei risultati ottenuti
g) Ritorno a punto a)
SEMMA:sample, explore, model, modify, assess.
19
Web mining
20
Web mining
• Scoprire nel web informazioni non note, non banali e rilevanti
è sempre più importante per capire il comportamento
dell’utente e facilitargli la visita al sito. Molto importante per
siti di e-commerce per far concludere l’acquisto.
• Web mining significa data mining applicato all’analisi delle
visite ai siti web per trovare:
• quali pagine ottengono maggiore o minore frequenza di visite
• tempo di permanenza
• punti di entrata e di uscita
• classificazione dei visitatori
• applicazione alla ricerca dei punti di ingresso e uscita dal sito
(analisi degli abbandoni)
• "Clickstream“ è il percorso dell'utente all'interno del sito.
• Si può capire quali sono le preferenze dei navigatori e di
conseguenza agire sui contenuti del sito.
• Un inserzionista può utilizzare questa informazione per
massimizzare il suo investimento pubblicitario.
21
LINK ANALYSIS PER WEB MINING
22
Lettura su Visual Web Mining
• rappresenta la quantità di link tra le pagine
• colore rosso tra Video e Introduction significa che da
Introduction passano più spesso a Video che altre pagine
• analisi a coppie di pagine, ovvero coppie di pagine più
associate per individuare regole di collegamento
• http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.10.
9852&rep=rep1&type=pdf
23
24
4