Introduzione - Facoltà di Economia

Dott.ssa Caterina Gurrieri
Modalità didattiche: lezione frontale e esercitazioni.
Ricevimento: sempre, previo appuntamento via mail
([email protected])
Testi consigliati:
Milioli, Riani, Zani, Introduzione
all’analisi dei dati statistici, Pitagora
Editrice
oppure
Borra, Di Ciaccio, Statistica.
Metodologia per le scienze economiche
e sociali, McGraw Hill
per approfondire
Cerioli A., Milioli M.A., Riani M. (2012),
Esercizi di statistica, Uni.Nova
NOTA: Testo opzionale, utile per lo
svolgimento di ulteriori esercizi
Ulteriore materiale didattico, comprensivo di esercizi, sarà messo a
disposizione degli studenti nel corso delle lezioni.
Alcuni concetti di base
Statistica: metodo per la raccolta, la classificazione e l’elaborazione dei dati di fatto,
utilizzati nelle scienze empiriche, e per la generalizzazione dei risultati, in termini
probabilistici, ai casi non osservati (Zani, 2011).
In generale, la statistica può essere definita come la disciplina che studia i
fenomeni collettivi allo scopo di metterne in evidenza le regolarità. Il
vocabolo statistica deriva dal latino “status”, perché inizialmente questa
scienza si occupava esclusivamente degli avvenimenti dello Stato.
La parola Statistica viene usata sia al singolare che al plurale. Usata al
singolare sta a significare l’insieme dei metodi e delle teorie che
permettono di studiare i fenomeni collettivi, mentre usata al plurale sta ad
indicare un insieme di dati numerici relativi a gruppi di persone o fatti in
senso lato.
I dati di fatto sono classificabili in:
- dati sperimentali, generati (ovvero creati)dal ricercatore in condizioni
controllate
- dati di osservazione, rilevati dal ricercatore (è il caso della quasi totalità
dei dati utilizzati nelle scienze sociali).
La statistica, dal canto suo, tradizionalmente si distingue in:
- statistica descrittiva, che comprende l’insieme dei metodi per la
raccolta e il trattamento dei dati in presenza di rilevazioni complete. Lo
scopo è quello di descrivere le caratteristiche di un determinato
fenomeno
- statistica inferenziale, che si occupa delle indagini campionarie, ovvero
quelle condotte su un campione dell’universo. I risultati sono in questo
caso forniti in termini di probabilità e non di certezza.
Analisi dei dati è l’insieme dei metodi statistici per lo studio di un
variabili quantitative e/o qualitative rilevate su un certo numero di unità
statistiche, al fine di individuare una struttura nei dati.
Analisi di tipo esplorativo: l’approccio utilizzato è di tipo induttivo (dai
dati al modello) e l’analisi è lo strumento per la scoperta di conoscenze
non note a priori.
Analisi di tipo confermativo: l’approccio utilizzato è di tipo deduttivo (il
modello, puramente teorico, deve essere confermato dai dati) e l’analisi
serve a confermare o smentire il modello teorico con l’analisi dei dati.
Data mining è il processo di ottenimento di conoscenze utili da insiemi
di dati di grandi dimensioni, mediante l’impiego di tecniche informatiche
e statistiche.
- fidelity card
- chiamate ai call center
- operazioni con carta di credito
-…
Unità statistiche sono i casi considerati, ovvero gli elementi che
interessano ai fini dell’indagine.
Collettivo statistico è l’insieme di unità, ovvero di elementi su cui sono
rilevati alcuni aspetti.
Variabili sono gli aspetti rilevati in corrispondenza di ciascuna unità
statistica.
Modalità sono i valori numerici o le categorie che ciascuna variabile
presenta in corrispondenza di ogni unità statistica.
Le fasi di una ricerca statistica







Studio del problema ed impostazione della ricerca (letteratura esistente
sull’argomento, ecc.).
Scelta ed individuazione delle unità statistiche pertinenti la ricerca.
Raccolta dei dati da ciascuna unità statistica.
Classificazione e misura dei dati.
Presentazione dei dati statistici sottoforma di tabelle statistiche, grafici, ecc.
Sintesi dei dati statistici, elaborazioni e presentazione dei più importanti
risultati.
Discussione e implicazione dei risultati.
Come ottenere i dati: le fonti statistiche
In generale, con fonte si intende in senso figurato un principio da cui
qualcosa emana o proviene direttamente (Devoto e Oli, 1971).
In questo senso, le fonti che forniscono informazione statistica sono un
principio per l’analisi di un fenomeno e fungono da base di analisi della
società per ricercatori e studiosi di vario genere.
Una classificazione definitiva ed esaustiva delle fonti statistiche non può
essere fatta. Sono molti i possibili criteri e quindi una sistemazione delle
fonti può essere possibile solo a partire dagli scopi che ha in mente chi la
attua.
E’ possibile classificare le fonti statistiche in base a:



Natura dell’ente
Scopo della rilevazione
La territorialità
Una prima classificazione è quella basata sulla natura giuridicoamministrativa della fonte. Considerando sia gli enti pubblici che quelli
privati è possibile definire quattro grandi categorie:
a) istituzionali;
b) pubbliche o di erogatori di servizio pubblico;
c) private;
d) enti di natura scientifica.
Sono quelle fonti cui la legge ha relegato funzioni di raccolta, elaborazione
e gestione di informazione statistica. Esse producono sia dati istituzionali
che statistici in senso proprio. A livello nazionale, le principali italiane
sono l’ISTAT, gli enti del SISTAN e gli organi dell’amministrazione
centrale e territoriale dello Stato (Ministeri, Dipartimenti, Aziende
autonome, Regioni, Province autonome, Province, Prefetture e Comuni).
Tali fonti producono ciò che il mondo anglosassone indica come processproduced data, cioè quei dati che sono creati al fine del buon funzionamento
dell’ente preposto alla loro raccolta.
Il ruolo informativo di questo tipo di dati è elevato, in quanto in alcuni
casi essi costituiscono l’unica risorsa per la comprensione di determinati
fenomeni di rilevante interesse sociologico.
Alcune fonti italiane di questo tipo sono: Aci, Agea, Apat, Coni, Inail,
Inps, Inran, Ismea, Iss, Isvap, Unioncamere.
Questa categoria è costituita da società e strutture private, comprese quelle
a partecipazione statale.
A parte le società a partecipazione statale (Ferrovie dello stato e Poste
Italiane), fanno parte di questa categoria: associazioni, consorzi,
organizzazioni sindacali di lavoratori dipendenti e dei datori di lavoro (ad
esempio Enasarco ed Inpdap), uffici e studi di aziende private.
Una seconda modalità di classificazione è delle fonti è basata sullo scopo
della rilevazione.
Fanno parte di questa categoria
a) le fonti di origine statistica in senso stretto, ovvero quelle costituite da
quel materiale che già in principio è stato raccolto con l’intento di
conoscere alcuni aspetti della vita sociale
b) le fonti di tipo istituzione, che comprendono quei documenti
predisposti dalle amministrazioni pubbliche e private per scopi inerenti
alla propria attività.
Una suddivisione utile è quella che fa riferimento alla territorialità dell’ente
che produce il dato. Su questa base è possibile definire almeno tre
categorie di fonti.
a) Internazionali
b) Nazionali
c) Locali
Rientrano in questa categoria
a) le fonti nazionali estere, ovvero tutti gli enti (pubblici ed istituzionali,
privati e scientifici) che producono informazioni statistiche in base a
normative di legge, funzioni di natura amministrativa o finalità
conoscitive. Si tratta di un gruppo di fonti molto vario che comprende:
istituti nazionali di statistica, servizi statistici regionali, ministeri, banche
centrali, istituti di ricerca, fondazioni …
b) le fonti sovranazionali, ovvero i servizi statistici delle organizzazioni
sovranazionali.
Tra le fonti sovranazionali va senza dubbio segnalato l’Eurostat (l’ufficio
statistico della Commissione Europea) che svolge funzione di direzione
generale della Commissione e di coordinamento dell’attività statistica
comunitaria. In genere, non raccoglie le informazioni ma gestisce e
rielabora i dati che gli sono inviati dagli istituti nazionali di statistica e da
altre organizzazioni sovranazionali come il Fondo Monetario
Internazionale. Altre fonti sovranazionali di dati sono OCSE e ONU.
Le fonti statistiche nazionali sono prodotte dagli organi di
amministrazione delle Stato esclusi quelli locali. Il maggior produttore di
fonti nazionali è l’ISTAT, che fornisce
I. Censimenti
II. Indagini multiscopo
III. Altre survey
Come raccogliere i dati: il questionario
Il questionario
Si configura come un insieme strutturato di domande volte ad
acquisire le informazioni necessarie per soddisfare le finalità
conoscitive dell’indagine.
Stabiliti gli obiettivi, diventano cruciali le fasi della messa a punto del
questionario e della scelta della modalità di somministrazione agli
intervistati.
Il questionario
La sua predisposizione chiama in causa competenze diverse, specie di
psicologia cognitiva e di tecnica della comunicazione statistica, e
coinvolge decisioni circa
 la valutazione preliminare riguardante la scelta della popolazione e
le modalità di contatto;
 la formulazione dei quesiti;
 la forma e definizione della scala di misura delle risposte;
 la sequenza dei quesiti;
 il pre-test ed eventuale revisione.
Il questionario
Prima di mettere a punto il questionario, è necessario fissare con
esattezza le informazioni che dovranno essere rilevate, presso quali
unità statistiche e in che modo. Si tratta, quindi, di definire l’obiettivo
conoscitivo dell’indagine, di stabilire i criteri di selezione di un
campione dopo aver identificato la popolazione di riferimento per
l’indagine, di fissare le modalità di contatto con gli intervistati.
Linee guida per la costruzione di un questionario
1. Progettazione dell’insieme delle domande, che devono
a) focalizzarsi su un singolo aspetto
b) essere brevi
c) essere chiare
Linee guida per la costruzione di un questionario
2. Formulazione della domanda
Ogni domanda dovrebbe investigare un singolo problema/aspetto. Le
domande che coprono due aspetti generano confusione.
Brevità: ogni domanda dovrebbe essere la più breve possibile (senza
sacrificare correttezza grammaticale e chiarezza): più lunga è la domanda,
meno essa è comprensibile.
Linee guida per la costruzione di un questionario
3. Chiarezza
L’intento della domanda dovrebbe essere chiaro ad ogni soggetto. Le
domande dovrebbero essere formulate nel linguaggio del rispondente.
Linee guida per la costruzione di un questionario
4. Distorsioni da evitare.

il linguaggio tecnico o le sigle

domande irrilevanti

domande dal significato vago

domande che implicano giudizi multipli

domande che siano troppo specifiche o troppo generali

domande che possano creare imbarazzo

domande che possano “indirizzare” verso una risposta in particolare.
Linee guida per la costruzione di un questionario
Le indicazioni fornite servono essenzialmente a limitare la possibilità di
errori non dovuti al campionamento ma
 al ricercatore, che può commettere errori nella formulazione delle
domande, nella sequenza con cui le domande vengono poste, nei tempi di
somministrazione …
 al rispondente, che può non ricordare oppure può assumere un
atteggiamento “compiacente”, alterando di fatto la realtà
 all’intervistatore, che può condizionare le risposte o può registrarle in
maniera errata
Linee guida per la costruzione di un questionario
Un modo per ridurre il numero di domande da sottoporre all’intervistato è
la domanda filtro, che consente di passare direttamente da una batteria di
domande ad un’altra, evitando di sottoporre all’intervistato domande non
pertinenti.
ESEMPIO. In un questionario, alla domanda “Lei pratica
qualche sport” è possibile rispondere SI o NO. Se la
risposta è affermativa, si continua ad indagare la parte del
questionario che riguarda gli sport praticati, altrimenti si
passa direttamente alla parte successiva.
Linee guida per la costruzione di un questionario
Riguardo alla formulazione, le domande di un questionario possono essere
- aperte, se si chiede all’intervistato di descrivere sinteticamente un
fenomeno
- chiuse, se si chiede di rispondere selezionando una (o più) alternativa
prevista dal ricercatore in fase di progettazione del questionario
Linee guida per la costruzione di un questionario
Le domande di un questionario possono essere poste in maniera
- diretta, se viene chiamato direttamente in causa l’intervistato
ESEMPIO. Qual è stato il suo voto di laurea?
- indiretta, se ci si riferisce genericamente a una terza persona o a un
gruppo di persone con caratteristiche simili
ESEMPIO. Quale reddito dovrebbe avere una famiglia di 4 persone
per vivere dignitosamente?
Linee guida per la costruzione di un questionario
Con riferimento alla modalità di risposta prevista, si distingue ancora tra
- domande a risposta semplice, se è ammessa solo una risposta tra quelle
possibili.
- domande a risposta multipla, che consentono di scegliere più di una
alternativa tra quelle proposte
VANTAGGI
 Possibilità di esplorare i problemi più in profondità, specie se lo strumento
contiene delle componenti qualitative.
 Facilità di risposta e quindi elevati tassi di partecipazione.
 Opportunità di precisare meglio le domande, se l’utente non le comprende
bene.
 Opportunità per l’intervistatore di esplorare le ragioni delle risposte
ricavandone ulteriori informazioni.
 Consente di utilizzare materiale visivo che riporta alternative di risposta
quando esse risultano complicate.
 Migliore identificazione dei non rispondenti.



SVANTAGGI
Richiede molto tempo ed è costosa.
Necessità di personale motivato, specializzato ed addestrato.
Può condurre a risposte compiacenti verso le aspettative dell’intervistatore.




VANTAGGI
Elevati tassi di risposta dovuti alla possibilità di contattare più volte
l’utenza.
Più conveniente per utenti lontani dalla sede di erogazione del
servizio.
Maggiore semplicità di amministrazione e di immediata disponibilità
dei dati per l’elaborazione con utilizzo di tecniche quali, ad esempio, il
CATI.
Necessità di minor formazione per gli intervistatori.


SVANTAGGI
Per interviste complesse può risultare costosa a causa delle spese
telefoniche.
Può condurre a risposte compiacenti verso le aspettative
dell’intervistatore.
VANTAGGI
Basso costo.
 Facile da amministrare.
 Maggiore riservatezza nelle informazioni raccolte (garanzia
dell’anonimato).
 Misura più obiettiva per mancanza dell’effetto intervistatore.
 Voci standardizzate.
 Possibilità per il rispondente di valutare con maggiore tranquillità le
domande.





SVANTAGGI
Molti utenti non sono in grado di prendervi parte a causa di loro
disabilità fisiche e mentali.
Rappresenta una forma passiva di consultazione.
Gli utenti anziani possono non rispondere a tutte le domande.
Non c’è la possibilità di controllare le mancate risposte.




VANTAGGI
Risulta facile da progettare e da spedire
Puoi tenere traccia dei rispondenti e dei non rispondenti rinviando a
quest’ultimi il relativo sollecito
SVANTAGGI
E’ ottenibile solo se i partecipanti hanno un accesso via e-mail e che
possono quindi scaricare il questionario
Può generare confusione specie se i partecipanti scaricano il questionario
compilandolo a mano piuttosto che col computer




VANTAGGI
Un semplice questionario può essere agevolmente progettato e posto
nel sito dell’azienda
Favorisce risposte di tipo qualitativo
SVANTAGGI
I partecipanti sono soltanto coloro che hanno accesso a internet
Potrebbe accadere che i partecipanti siano un campione scarsamente
rappresentativo in quanto solo quelli che hanno interesse a visitare il
sito vi possono partecipare
Per conoscere le caratteristiche di una popolazione, difficilmente saremo in
grado di misurare tutti i suoi elementi, per motivi di costo, di tempo e di
opportunità. Perciò si ricorre al campionamento statistico.
Si definisce campionamento un procedimento attraverso il quale da un
insieme di unità costituenti l’oggetto dello studio, si estrae un numero
ridotto di casi scelti con criteri tali da consentire la generalizzazione
all’intera popolazione dei risultati ottenuti.
Popolazione o universo
Si definisce popolazione o universo di una ricerca l’insieme dei casi che
teoricamente costituiscono l’oggetto di indagine e che hanno in comune
almeno una caratteristica osservabile.
La ricerca studia le caratteristiche della popolazione di riferimento che
costituiscono l’oggetto da conoscere; ciò significa che ogni popolazione
contiene delle informazioni che il ricercatore deve raccogliere per
svolgere la sua ricerca.
Per questo, comunemente si dice che la popolazione è un “contenitore di
informazioni”.
Definizione della popolazione
Quando si mette a punto una ricerca, una delle fasi consiste nel definire
la popolazione di riferimento. Definire una popolazione significa, in
particolare, individuare le caratteristiche interessanti per la ricerca,
delimitando il campo di azione della ricerca stessa, eliminando quelle
caratteristiche non utili.
La definizione della popolazione dipende dagli obiettivi di ricerca.
Definizione della popolazione
Esempi:
indagine sui redditi in Italia → popolazione: individui che percepiscono
un reddito in Italia;
indagine
sugli affitti in Italia → popolazione: tutte le famiglie in affitto
in Italia;
indagine
sulle prossime elezioni politiche → popolazione: tutti gli
italiani con diritto di voto;
indagine
sull’impatto della riforma scolastica sugli studenti delle scuole
superiori → popolazione: studenti italiani delle scuole superiori.
La popolazione può essere teorica e accessibile.
La popolazione teorica: è l’insieme di tutti i casi che costituiscono la
popolazione oggetto di indagine.
Es. indagine sulle prossime elezioni politiche → popolazione teorica: tutti gli
italiani con diritto di voto;
La popolazione accessibile: è l’insieme di tutti i casi appartenenti alla
popolazione teorica che sono effettivamente raggiungibili.
Es. indagine sulle prossime elezioni politiche → popolazione accessibile: parte
degli italiani con diritto di voto effettivamente intervistabili.
In base alla coincidenza o meno delle due popolazioni si distingue in
Censimento e Survey.
Censimento quando popolazione teorica e popolazione accessibile
coincidono ogni caso della popolazione è esaminabile e raggiungibile e
fornisce informazioni, la rilevazione esaustiva o totale
Es. tutti i cittadini italiani (Istat)
Survey (o indagine o inchiesta o sondaggio) quando è impossibile
accedere alla popolazione teorica per problemi di costi, tempi o di
raggiungibilità. Per questo è necessario effettuare l’indagine solo su una
parte della popolazione, quella accessibile, selezionando i singoli casi
attraverso delle procedure standard (campionamento).
L’ipotesi è che un numero limitato di casi fornisce la stessa informazione
che avrebbe fornito l’intera popolazione.
Indipendentemente dagli obiettivi preposti, l’impossibilità di accedere alla
popolazione teorica ovvero di esaminare ogni singola unità dell’intera
popolazione può avere diverse cause
limitate risorse economiche, di personale, di tempo disponibili;
l’intera popolazione da studiare non è fisicamente raggiungibile;
l’intera popolazione da studiare non è del tutto nota.
Per superare questi problemi si ricorre ad una rilevazione campionaria
ossia una rilevazione che permette di studiare le caratteristiche di una
popolazione attraverso lo studio di una porzione di essa detta campione.
Campione: parte della popolazione selezionata in modo da diminuire, in
termini di tempo e costi, l’acquisizione tutte le informazioni utili per la
ricerca. Il campione è la rappresentazione in piccolo di tutta la popolazione,
sintetizza, cioè tutte le caratteristiche della popolazione originaria.
Scegliere un campione da una popolazione significa effettuare un
campionamento”.
Campionamento: procedimento attraverso il quale si estrae, da un’insieme
di unità (popolazione), un numero finito di casi (campione) che siano
rappresentativi di tutta la popolazione e scelti con criteri tali da consentire
la generalizzazione (inferenza) all’intera popolazione a partire dai risultati
ottenuti studiando il campione.
Motivi per utilizzare un campione
l’estrazione
di un campione richiede meno tempo rispetto all’esame
dell’intera popolazione;
un
campione è meno costoso;
un
campione è più pratico da gestire;
un
campione garantisce un elevato grado approfondimento e accuratezza;
spesso
è una necessità perché l’esame dell’intera popolazione non è
accessibile.
Le valutazioni sulle caratteristiche della popolazione si basano sulle
informazioni contenute in un campione estratto dalla popolazione stessa.
Ciò pone un problema di stima dei parametri.
Gli studi basati sulle rilevazioni campionarie, infatti, hanno lo scopo di
stimare alcuni parametri ovvero dare valori approssimativi della
popolazione sulla base dei parametri del campione.
L’analisi delle caratteristiche di un campione avviene proprio grazie ai:
Parametri: valori caratteristici (statistici) assunti dalle variabili sull’intera
popolazione.
Stime del parametro della popolazione: valori approssimativi e
probabilistici che determinano, con un certo margine di errore, il carattere
della popolazione da cui il campione deriva.
Stime del parametro del campione: sono i valori rilevati sul campione.
Rilevazione esaustiva/totale: stime popolazione = stime del campione →
valore esatto
Rilevazione campionaria/parziale: stime popolazione = stime del campione
→ valore stimato
L’errore di campionamento
La stima del parametro è probabilistica. Ciò significa che comporta un
errore dovuto all’impossibilità di determinare con esattezza il parametro.
Ciò che è possibile è stabilire un intervallo (detto di fiducia/confidenza)
entro il quale si colloca il valore della statistica della popolazione. Al di
fuori di questo intervallo si determina l’errore di campionamento, ossia
un errore casuale insito nelle procedure di formazione del campione.
Proprio perché la “vera” caratteristica della popolazione è (per
definizione) ignota, l’errore di campionamento non può mai essere
determinato con esattezza. Esso tuttavia può essere contenuto entro limiti
più o meno ristretti adottando appropriati metodi di campionamento.
L’errore di campionamento è rappresentato dalla differenza tra i
risultati ottenuti dal campione e la vera caratteristica della
popolazione che vogliamo stimare.
NB: L’errore di campionamento è direttamente proporzionale
all’intervallo di fiducia/confidenza e alla variabilità del fenomeno studiato
ed inversamente proporzionale all’ampiezza del campione.
Validità/Bontà di un campione
Perché il risultati di una indagine campionaria siano generalizzabili è
necessario valutare la validità (bontà) del campione. Tale valutazione può
essere condotta ponendosi due quesiti:
Le
conclusioni sono corrette per gli individui che compongono il
campione?
Il
campione rappresenta bene la popolazione da cui è stato estratto?
La risposta ai due quesiti deriva dai concetti di validità interna e di validità
esterna di uno studio statistico.
Validità interna: misura quanto i risultati di uno studio sono corretti per il
campione di individui che sono stati studiati.
Viene detta “interna” proprio perché è relativa esclusivamente al gruppo di
casi studiati e non necessariamente agli altri.
La validità interna rappresenta una condizione necessaria ma non sufficiente
perché uno studio sia utile.
Validità esterna: è il grado di generalizzabilità delle conclusioni tratte da
uno studio campionario. Essa misura il grado di verità dell’assunto secondo
cui gli individui studiati con il campione sono “uguali” a quelli dell’intera
popolazione che non rientrano nella rilevazione campionaria.
IN GENERALE. Data una popolazione da cui viene estratto un
campione
- se la validità è positiva, si può sostenere che il campione
rappresenta la popolazione da cui è stato estratto;
- se la validità è negativa, occorre procedere ad un nuovo
campionamento
Criteri di bontà di un campione
Un campione è valido se è:
Eterogeneo, ovvero se include tutte le caratteristiche e qualità diverse. Il
campione deve essere diversificato al suo interno in modo da presentare
una variabilità di caratteristiche collegate alle informazioni da rilevare.
Rappresentativo, ovvero se presenta, senza distorsioni, tutte le
caratteristiche della popolazione di riferimento. La rappresentatività è
garantita se la procedura di campionamento è casuale ossia se è regolata
dalla legge caso/probabilità.
Criteri di bontà di un campione
Un campione è valido se è:
Accurato, ovvero se il grado di minimizzazione degli errori di copertura
(lista della popolazione) è elevato ed il numero di non risposte (tutti i casi
del campione sono raggiungibili) è basso.
Ampio, ovvero se include un numero elevato di casi. L’ampiezza è
inversamente proporzionale agli errori di rilevazione.
Come si determina l’ampiezza del campione?
Per determinare la dimensione ottimale del campione (il campione più
piccolo col minimio errore di campionamento) che consenta di stimare una
percentuale ad una precisione voluta (intervallo di confidenza stabilito) si
utilizzano le tavole di campionamento.
Per usarle è necessario conoscere:
N. delle unità che compongono la popolazione dal quale il campione
deve essere tratto.
L’intervallo di fiducia/confidenza al quale si intende operare.
La percentuale di soggetti della popolazione che possiedono le
caratteristiche richieste.
L’errore campionario massimo che vuole accettare nei risultati.
Da una popolazione viene estratto un campione e, con adatti test, ne
viene controllata la validità: se è positiva, si può inferire che il
campione rappresenta con un certo errore la popolazione da cui è
stato estratto; se il test è negativo, occorre procedere ad un nuovo
campionamento.
Vi sono fondamentalmente 2 tipi di campioni:
CAMPIONI PROBABILISTICI
ciascuna unità della popolazione ha una probabilità predefinita di
entrare a far parte del campione
 consentono una stima dell’errore di campionamento attraverso la teoria
della probabilità
 scelta di n sulla base di un criterio probabilistico
 eliminano elementi di soggettività

CAMPIONI NON PROBABILISTICI
Nella SCELTA NON PROBABILISTICA non vale la condizione
precedente. Si cerca semplicemente di fare in modo che le unità del
campione presentino le stesse caratteristiche della popolazione.
Rappresentatività
E’ la capacità del campione di costituire una miniatura, immagine su scala
ridotta, della popolazione
In altre parole,
Campionamento probabilistico: è la procedura di campionamento in cui
i casi vengono scelti in modo che la probabilità che di ciascun caso ha di
essere incluso nel campione è nota.
Campionamento non probabilistico: è la procedura di campionamento
in cui i casi vengono scelti in modo che la probabilità che di ciascun caso
ha di essere incluso nel campione è non nota..
Campionamento probabilistico
In generale, il campionamento probabilistico si basa sull’idea di scegliere
casualmente le unità da includere nel campione.
Idealmente, quindi, è come se tutti gli elementi della popolazione venissero
messi in un’urna da cui si procede ad estrarre con probabilità nota le unità
statistiche da includere nel campione.
Seguendo questo metodo ogni unità ha la stessa probabilità di entrare nel
campione e non c’è rischio di distorsione da selezione.
Naturalmente, nella realtà i “piani di campionamento” sono più complessi
dello schema descritto.
L’idea che li accomuna tutti, comunque, rimane quella di selezionare in
modo casuale le unità riducendo a zero (al minimo) gli elementi di
arbitrarietà nella selezione.
Ancora, un campionamento si dice probabilistico quando per ciascun caso
la probabilità di essere estratti è nota ed è diversa da zero. Consente, inoltre,
l’inferenza, ovvero la generalizzazione dei risultati a tutta la popolazione.
In un CP è fondamentale la conoscenza dell’universo: per poter estrarre in
modo probabilistico i casi dalla popolazione è necessario avere dati
sull’universo teorico, è necessario, cioè, disporre di informazioni circa le
caratteristiche della popolazione.
N = corrisponde ai numero dei soggetti nella popolazione oggetto di
indagine.
n = corrisponde al numero dei soggetti nel campione.
K = n/N = rapporto di campionamento
Campionamento casuale semplice
E’ la più semplice tecnica di selezione di un campione; il procedimento è
sostanzialmente simile allo schema di estrazione da un’urna.
Un campione casuale semplice è un campione in cui ogni individuo della
popolazione ha la stessa probabilità di essere scelto.
Se si indica con n la dimensione del campione (numero di elementi del
campione) e con N la dimensione della popolazione, (numero di elementi
della popolazione), nel campionamento casuale semplice la probabilità che
ogni individuo della popolazione ha di essere scelto alla prima estrazione
(rapporto di probabilità) è 1/N.
In questo tipo di campionamento è necessaria la presenza di una lista della
popolazione.
Campionamento casuale semplice - con reinserimento
E’ la più semplice tecnica di selezione del campione.
Si estrae un campione in cui ogni unità della popolazione ha la stessa
probabilità di essere selezionata, pari ad 1/N.
La caratteristica fondamentale è che dopo ogni estrazione, l’estratto
viene reinserito nella popolazione.
La probabilità di essere estratti è sempre 1/N
Campionamento casuale semplice - senza reinserimento
Si estrae un campione da una popolazione N, evitando di reinserire il
soggetto/individuo/… che è stato estratto.
Ogni unità ha probabilità 1/N di essere selezionata alla prima estrazione,
le rimanenti hanno probabilità 1/(N-1) alla seconda e così via.
Uno dei metodi impiegati per ottenere un campione casuale è la tavola dei
numeri casuali
PREGI
E’ privo di errori di selezione: nessuna unità o gruppo di unità è favorito a
priori
E’ molto semplice ed ha quindi un basso costo
DIFETTI
E’ necessario disporre di una lista completa delle unità.
Può non essere “rappresentativo”: alcune particolari sezioni della
popolazione potrebbero non essere rappresentate.
Non sfrutta informazioni ausiliarie eventualmente disponibili sulla
popolazione
La rilevazione sul campo può essere molto costosa se l’intervista viene
effettuata attraverso un rilevatore e le unità selezionate sono fra loro lontane
(alti costi di spostamento).
Campionamento casuale semplice: procedura
Con sorteggio
Ad ogni numero è associato ad un soggetto
estrazione di un numero da un’urna;
ricorso ai numeri casuali generati dai computer;
utilizzo della tavola dei numeri casuali.
Senza sorteggio
si
predispongono in un’urna tanti bigliettini quanti sono gli elementi
della popolazione e se ne estraggono un n prestabilito;
si inseriscono nomi dell’intera popolazione in un foglio elettronico e si
numerano in ordine alfabetico da 1 a N. Si estraggono i casi da includere
nel campione in modo casuale (dati o 1 caso ogni tot.);
tavola numeri casuali: se N ha 3 cifre si seleziona la prima tabella con 3
cifre e si procede o in verticale, diagonale orizzontale.
Campionamento sistematico
E’ tipo particolare di campionamento casuale semplice dove le unità
campionarie sono individuate sistematicamente una ogni dato intervallo.
Nel campionamento sistematico le n unità che costituiranno il campione
sono scelte dalla popolazione ad intervalli regolari ossia in base ad una
regola prefissata.
Questo metodo assicura anche che le singole unità del campione siano
distribuite uniformemente all’interno della popolazione.
Occorre tuttavia porre attenzione che l’intervallo di campionamento
prescelto non sia influenzato da qualche variabile esterna che agisce con la
stessa ciclicità del campionamento.
Il campionamento sistematico è facile da eseguire, ma il suo uso acritico
può portare con facilità a campioni affetti da errori sistematici; rischio che
non c’è con il campionamento casuale semplice.
Campionamento sistematico – procedura
Si calcola il “passo di campionamento” (che è l’inverso della “frazione di
campionamento”): k = N/n e si arrotonda k all’intero.
Si estrae a caso un numero r compreso fra 1 e k. Il campione sarà
costituito dalle unità che corrispondono alle posizioni della lista: [ r , r +
k , r + 2k , ….. , r + (n –1)k ]
Il numero r identifica la prima unità, dopodiché se ne astraggono
sequenzialmente una ogni k.
E’ il metodo utilizzato dall’ISTAT per estrarre dalle liste anagrafiche.
Se il modo in cui le unità sono elencate nella lista può considerarsi
casuale, il campionamento sistematico può considerarsi a tutti gli effetti
analogo al campionamento casuale semplice.
Campionamento stratificato
Se si ritiene che un campione casuale semplice possa non rappresentare
nelle giuste proporzioni sezioni fra loro eterogenee della popolazione, si
può procedere alla
stratificazione.
Il procedimento di stratificazione consiste:
1. nel raggruppare le unità della popolazione in strati il più possibile
omogenei al loro interno rispetto al carattere (od ai caratteri) investigati;
2. nell’estrarre casualmente un certo numero di unità campione da
ciascuno strato.
La stratificazione deve essere effettuata sulla base di uno o più caratteri
noti su tutti gli elementi della popolazione e legati al carattere indagato:
quanto più stretto è il legame fra le variabili di stratificazione e la variabile
oggetto di indagine, tanto più efficace sarà la stratificazione.
Si può estrarre da ciascuno strato un numero di unità proporzionale alla
dimensione dello strato (allocazione proporzionale) oppure privilegiare gli
strati in cui l’eterogeneità (la varianza) è maggiore (allocazione ottima di
Neyman).
In generale, si può sostenere che questo tipo di campionamento si utilizza
quando, essendo in possesso di una lista completa della popolazione, si
intende studiare un carattere specifico – e determinante- della popolazione di
riferimento.
Con questa strategia di campionamento è possibile assicurare la
rappresentatività dei sottogruppi della popolazione.
NB: lo stato di tutte le unità di campionamento, rispetto ai fattori su cui è
basata la stratificazione, deve essere noto prima di scegliere il campione.
Campionamento stratificato random: procedura
Si divide la popolazione in sottocampioni/strati omogenei in base ad una
caratteristica della popolazione (caratteristica = regione di residenza, strati
= Nord centro sud)
Si effettua un campionamento casuale semplice in ogni strato
I sotto campioni definiscono, nel loro insieme, il campione basato sulle
variabili stratificanti.
Esempio: Ricerca sul reddito degli italiani
Si divide la popolazione per professione in 4 strati: operai impiegati
autonomi e professionisti.
Estraiamo in modo casuale un campione da ciascuno strato e si unifica il
campione.
Campionamento stratificato proporzionale
Propone la riproduzione della stessa composizione degli strati nella
popolazione, utilizzando gli stessi rapporti di campionamento per i diversi
strati.
Esempio
Se gli operai sono il 40% della Popolazione, impiegati 40%, autonomi 15%
e professionisti 5% e il campione è n = 1000 allora si prenderanno operai
400 impiegati 400, autonomi 150 e professionisti 50.
Campionamento stratificato non proporzionale
Si sovra/sottorappresenta uno strato utilizzando rapporti di
campionamento diversi per i diversi strati.
Si usa in genere quando si vogliono sovra rappresentare gli strati meno
numerosi della popolazione.
Campionamento a stadi
Consiste nella selezione delle “unità di primo stadio”, all’interno delle
quali vengono
selezionate alcune unità di uno stadio successivo, e via di seguito.
Si utilizza quando non è disponibile una lista complessiva delle unità della
popolazione.
A questo tipo di campionamento si ricorre per necessità in quanto le
stime con esso ottenibili sono di solito meno efficienti (maggior
variabilità campionaria) di quelle calcolate applicando un campione
casuale semplice. E’ definito sulla base di scelte e procedure successive
che passano per più stadi.
Campionamento a stadi – procedura
1. Individuazione delle unità di primo stadio, dette unità primarie, che
costituiscono dei raggruppamenti delle unità di secondo stadio, dette
unità secondarie. Non devono esistere dubbi sull’appartenenza di ogni
unità di secondo stadio ad una data unità di primo stadio.
2. Formazione della lista delle unità di primo stadio.
3. Selezione casuale di alcune unità di primo stadio.
4. Selezione casuale di alcune unità di secondo stadio da ciascuna unità di
primo stadio estratta.
La popolazione viene divisa in gruppi gerarchicamente ordinati. I casi
vengono estratti con un procedimento “ad imbuto”..
Esempio di tale situazione è dato dall’anagrafe che non esiste come
unico archivio nazionale ma è suddivisa negli 8.103 comuni italiani.
In questo caso si procede:
1. estrazione casuale di un campione di comuni (unità di primo stadio);
2. estrazione di un campione casuale di famiglie (unità di secondo
stadio) da ciascuna lista anagrafica per ogni comune selezionato.
Campionamento per aree
E’ un tipo di campionamento a stadi dove lo stadio è un’area
geografica.
Si utilizza quando non si dispone di una lista per la selezione delle
unità e queste sono dislocate sul territorio.
In questo caso si procede ad una suddivisione in parti (aree)
dell’intero territorio e all’estrazione di un campione di aree. Quindi si
esplorano le aree campionate, allo scopo di enumerare esaustivamente
le unità presenti al loro interno e produrre delle liste complete. Infine,
dalle liste prodotte, si estraggono le unità campione da contattare per
la rilevazione vera e propria.
Campionamento per aree
Dal punto di vista teorico il campionamento per aree deve essere
considerato una forma particolare di campionamento a più stadi.
Esempio: Ricerca sugli Italiani
MULTISTADI
Macroarea/Regioni/Province/Comuni/Zona rurale-urbana/individui
Campionamento a grappoli (cluster)
E’ un tipo di campionamento a stadi.
E’ utilizzato quando la popolazione risulta naturalmente divisa in
gruppi/grappoli (Esempio: classi scolastiche, reparti aziendali ecc.).
Presupposto: la popolazione è suddivisa, in modo naturale o artificiale,
in sottoinsiemi di unità, generalmente legati da vincoli di contiguità
spaziale.
Per “grappolo” si intende un sottoinsieme degli elementi della
popolazione che viene trattato come un’unica entità ai fini del
campionamento.
I grappoli, inoltre, costituiscono una partizione della popolazione, al
pari degli strati, ma le loro caratteristiche sono diverse:
· sono generalmente predeterminati per scopi amministrativi
· è opportuno che siano eterogenei al loro interno ed omogenei fra
loro.
Campionamento a grappoli (cluster) - procedura
Le fasi del campionamento a grappoli sono le seguenti:
1. ripartizione delle unità della popolazione in grappoli (anch’essi devono
costituire una partizione della popolazione);
2. formazione della lista dei grappoli;
3. selezione casuale di alcuni grappoli: il campione risulta costituito da tutte le
unità appartenenti ai grappoli prescelti.
Questa tecnica di campionamento è stata proposta nelle indagini di mercato
per evitare di avere una distribuzione dei campioni in un territorio molto
vasto.
Esempio Ricerca sugli studenti
Istituti superiori/Sezioni/Classi/tutti gli studenti delle classi (grappolo)
campionate casualmente
PREGI
1. Se i grappoli sono insiemi di unità territorialmente o fisicamente
vicine, i costi di spostamento da un’unità all’altra all’interno di un
grappolo sono molto bassi, e
quindi si riducono i costi complessivi di rilevazione.
2. Richiede soltanto la lista dei grappoli e delle unità statistiche
appartenenti ai soli grappoli estratti.
DIFETTI
1. Poiché raramente l’omogeneità fra i grappoli è perfetta, il
campionamento per grappoli non assicura la stessa rappresentatività
del campionamento stratificato, presentando quindi una minore
efficienza (limita la casualità)
Campionamento non probabilistico
Un campionamento si dice non probabilistico quando per ciascun caso la
probabilità di essere incluso nel campione non è nota.
In un CNP la conoscenza dell’universo non è necessaria
 Il CNP non consente l’inferenza per questo i risultati sono estendibili
solo al campione.

In generale, quindi si ha un campionamento non probabilistico quando le
unità della popolazione non hanno una probabilità predefinita e non
nulla di entrare a far parte del campione.
Questo comporta che è un tipo di campione che non permette la
valutazione dell’errore campionario.
La scelta delle unità campionarie non è di natura casuale, bensì viene
effettuata sulla base di informazioni riguardanti la popolazione indagata.
· E’ appropriato per piccoli campioni. Se, ad esempio, per motivi
economici un’indagine deve essere limitata a due sole città, sarà opportuno
scegliere le città con criteri mirati, avendo cura che esse appartengano alla
tipologia più rilevante ai fini della ricerca.
· E’ una scelta obbligata quando non è possibile accedere alla lista delle
unità della popolazione.
La rappresentatività del campione ragionato dipende dalla competenza del
gruppo di esperti e quindi del loro livello di conoscenza della popolazione.
È un campionamento ragionato
La differenza con il campionamento probabilistico, quindi, è
rappresentata dalla selezione non casuale dei campioni.
Si ribadisce, infatti, che il campionamento non probabilistico non fornisce
a ciascuna unità della popolazione la stessa occasione di essere parte del
campione: alcuni gruppi o individui hanno maggiore probabilità di essere
scelti, altri meno.
Questo metodo, infatti, prevede la selezione del campione in base a criteri
di comodo o di praticità: per esempio, perché gli elementi da campionare
sono più facilmente accessibili, o per ragioni di costo, o perché in una
certa zona sono disponibili volontari ecc. Un campione selezionato con
questi criteri, sebbene abbia il vantaggio della rapidità, fornisce dati poco
affidabili e può essere facilmente viziato da errori sistematici.
Tipi di campionamento non probabilistico
Campionamento a casaccio
 Campione di esperti
 Campionamento per quota
 Campionamento a scelta ragionata
 Campionamento a valanga o a catena o a palla di neve
 Campionamento telefonico/sistema CATI
 Campionamento di convenienza/di disponibilità

Campionamento a casaccio
E’ costruito in modo accidentale senza nessun criterio di base.
Esempio 1: sondaggio elettorale telefonico.
Si intervistano le prime 100 persone che rispondono al telefono
(considerare orario ecc).
Esempio 2: in un sondaggio di opinioni all’interno di una piccola
azienda con 200 impiegati si vuole studiare la valutazione attribuita alla
qualità della mensa. A questo scopo si decide di esaminare un
campione composto da 20 persone. Per motivi di convenienza, si
intervistano le prime 20 persone che si presentano in sala mensa.
Questo criterio é molto pratico, in quanto non bisogna attendere
l’arrivo di tutti i dipendenti; tuttavia, si esamineranno impiegati di
livello più basso: i dipendenti più impegnati o comunque meno
“affamati” non entreranno a far parte del campione.
Questo campione, è dunque viziato da
un errore sistematico.
Campione di esperti
E’ costituito da soggetti che si ritiene siano particolarmente informate su
certi argomenti.
E’ utilizzato nelle ricerche di tipo qualitativo (focus group).
Si distinguono:
Opinion leader (figure socialmente influenti).
Testimoni privilegiati (figure non socialmente importanti ma detentori).
Campionamento per quota
Ha la stessa logica del campionamento stratificato, ma le quote
all’interno di ciascuno strato sono selezionate dai ricercatori con criteri
non probabilistici.
Si ottiene definendo un dato numero di soggetti da campionare
secondo certe variabili, o in base ad una quota fissa (100 operai, 100
contadini, ecc) o mantenendo una certa proporzione tra universo e
campione ( se in una città ci sono 30% di operai e 70% di contadini si
cerca di mantenere la stesa quota nel campione ma la scelta nei singoli
strati non rispetta le regole della probabilità).
Campionamento a scelta ragionata
Le unità campionarie vengono scelte in modo razionale sulla base di
alcune loro caratteristiche, e si utilizza quando l’ampiezza del campione è
limitata.
Esempio: Campione Prospex dell’Istituto Cattaneo IARD
I Comuni italiani sono stati classificati in 20 stati derivanti dall’incrocio
fra la dimensione del comune (meno di 5000 abitanti, 10-50 mila; 50-100
mila; oltre 10 mila) e zona geografica (Nord-Centro – Sud e Isole).
Per ogni strato si è scelto un numero di comuni sulla base del peso
demografico della popolazione residente ( Es. la popolazione dei comuni
del nord con 5000 abitanti è il 6% della popolazione totale sono stati
scelti 6 comuni).
Campionamento a valanga (o a catena o a palla di neve)
E’ utilizzato nel caso la popolazione sia costituita da soggetti che
tendono ad occultare la loro identità (omosessuali, prostitute ecc.) o
sono di difficile reperibilità (clandestini ecc).
Consiste nel selezionare i casi utilizzando le reti relazionali (sociali,
culturali, politiche) di un gruppo di persone inizialmente contattate.
Es. Indagine sugli immigrati senza permesso di soggiorno
Si contatta un immigrato, lo si sottopone ad intervista e poi gli si chiede
di indicare un altro immigrato di sua conoscenza disposto a rilasciare
l’intervista.
6. Campionamento telefonico/sistema CATI
Si utilizza nelle inchieste telefoniche ed è gestito dal software CATI che
seleziona i soggetti da intervistare direttamente dagli elenchi telefonici.
7. Campionamento di convenienza o di disponibilità
Si utilizza quando i soggetti da intervistare sono irraggiungibili e ci si basa
unicamente su gruppi volontari.
Vantaggi e svantaggi dei campioni probabilistici e non probabilistici
Note di uso per la pianificazione un disegno campionario
In generale, quando si intende mettere a punto un’indagine campionaria è
importante:
Adottare
una strategia di campionamento testata, monitorata e valicata.
Considerare più disegni di campionamento alternativi e valutarli alla luce
di informazioni disponibili quali censimenti, indagini precedenti, dati
amministrativi o appositi studi pilota.
Prevedere una certa flessibilità nel disegno in maniera da far fronte a
necessità quali l’aggiornamento delle probabilità di selezione o una
riduzione della dimensione campionaria.
Prevedere
una rotazione del campione qualora si desideri fornire stime di
variazioni efficienti e si voglia limitare il carico della rilevazione sulle unità
statistiche.
Prevedere metodi per trattare il caso in cui alcune delle unità indagate si
scoprano non appartenere allo stato loro assegnato o non rientrare nella
classificazione loro attribuita.
Considerare nella fase di disegno del campione anche problemi connessi
agli errori di campionamento quali l’impossibilità di contattare qualche
unità, il contatto di unità non appartenenti alla popolazione (ad Esempio
un’impresa dove ci si aspetta una famiglia) o il rifiuto a partecipare
all’indagine.
Un’indicazione “tecnica”
GENERARE I NUMERI CASUALI IN EXCEL
•Sulla barra della formula scrivere =CASUALE.TRA(1;1000)
• Premere Invio
• Trascinare la formula sulle celle sottostanti per generare la quantità di numeri
casuali necessari
• Annotare i numeri generati: se si chiude il programma o si fa un’altra
operazione, infatti, Excel estrae di nuovo i numeri casuali
N.B. Per default “Excel” produce numeri con decimali: per visualizzare
soltanto i numeri interi cliccare il menù “Formato”---“Celle” e dalla videata
selezionare i seguenti valori:
Categoria = “Numero” ; Posizioni decimali = “0”

Download Report