Dott.ssa Caterina Gurrieri Modalità didattiche: lezione frontale e esercitazioni. Ricevimento: sempre, previo appuntamento via mail ([email protected]) Testi consigliati: Milioli, Riani, Zani, Introduzione all’analisi dei dati statistici, Pitagora Editrice oppure Borra, Di Ciaccio, Statistica. Metodologia per le scienze economiche e sociali, McGraw Hill per approfondire Cerioli A., Milioli M.A., Riani M. (2012), Esercizi di statistica, Uni.Nova NOTA: Testo opzionale, utile per lo svolgimento di ulteriori esercizi Ulteriore materiale didattico, comprensivo di esercizi, sarà messo a disposizione degli studenti nel corso delle lezioni. Alcuni concetti di base Statistica: metodo per la raccolta, la classificazione e l’elaborazione dei dati di fatto, utilizzati nelle scienze empiriche, e per la generalizzazione dei risultati, in termini probabilistici, ai casi non osservati (Zani, 2011). In generale, la statistica può essere definita come la disciplina che studia i fenomeni collettivi allo scopo di metterne in evidenza le regolarità. Il vocabolo statistica deriva dal latino “status”, perché inizialmente questa scienza si occupava esclusivamente degli avvenimenti dello Stato. La parola Statistica viene usata sia al singolare che al plurale. Usata al singolare sta a significare l’insieme dei metodi e delle teorie che permettono di studiare i fenomeni collettivi, mentre usata al plurale sta ad indicare un insieme di dati numerici relativi a gruppi di persone o fatti in senso lato. I dati di fatto sono classificabili in: - dati sperimentali, generati (ovvero creati)dal ricercatore in condizioni controllate - dati di osservazione, rilevati dal ricercatore (è il caso della quasi totalità dei dati utilizzati nelle scienze sociali). La statistica, dal canto suo, tradizionalmente si distingue in: - statistica descrittiva, che comprende l’insieme dei metodi per la raccolta e il trattamento dei dati in presenza di rilevazioni complete. Lo scopo è quello di descrivere le caratteristiche di un determinato fenomeno - statistica inferenziale, che si occupa delle indagini campionarie, ovvero quelle condotte su un campione dell’universo. I risultati sono in questo caso forniti in termini di probabilità e non di certezza. Analisi dei dati è l’insieme dei metodi statistici per lo studio di un variabili quantitative e/o qualitative rilevate su un certo numero di unità statistiche, al fine di individuare una struttura nei dati. Analisi di tipo esplorativo: l’approccio utilizzato è di tipo induttivo (dai dati al modello) e l’analisi è lo strumento per la scoperta di conoscenze non note a priori. Analisi di tipo confermativo: l’approccio utilizzato è di tipo deduttivo (il modello, puramente teorico, deve essere confermato dai dati) e l’analisi serve a confermare o smentire il modello teorico con l’analisi dei dati. Data mining è il processo di ottenimento di conoscenze utili da insiemi di dati di grandi dimensioni, mediante l’impiego di tecniche informatiche e statistiche. - fidelity card - chiamate ai call center - operazioni con carta di credito -… Unità statistiche sono i casi considerati, ovvero gli elementi che interessano ai fini dell’indagine. Collettivo statistico è l’insieme di unità, ovvero di elementi su cui sono rilevati alcuni aspetti. Variabili sono gli aspetti rilevati in corrispondenza di ciascuna unità statistica. Modalità sono i valori numerici o le categorie che ciascuna variabile presenta in corrispondenza di ogni unità statistica. Le fasi di una ricerca statistica Studio del problema ed impostazione della ricerca (letteratura esistente sull’argomento, ecc.). Scelta ed individuazione delle unità statistiche pertinenti la ricerca. Raccolta dei dati da ciascuna unità statistica. Classificazione e misura dei dati. Presentazione dei dati statistici sottoforma di tabelle statistiche, grafici, ecc. Sintesi dei dati statistici, elaborazioni e presentazione dei più importanti risultati. Discussione e implicazione dei risultati. Come ottenere i dati: le fonti statistiche In generale, con fonte si intende in senso figurato un principio da cui qualcosa emana o proviene direttamente (Devoto e Oli, 1971). In questo senso, le fonti che forniscono informazione statistica sono un principio per l’analisi di un fenomeno e fungono da base di analisi della società per ricercatori e studiosi di vario genere. Una classificazione definitiva ed esaustiva delle fonti statistiche non può essere fatta. Sono molti i possibili criteri e quindi una sistemazione delle fonti può essere possibile solo a partire dagli scopi che ha in mente chi la attua. E’ possibile classificare le fonti statistiche in base a: Natura dell’ente Scopo della rilevazione La territorialità Una prima classificazione è quella basata sulla natura giuridicoamministrativa della fonte. Considerando sia gli enti pubblici che quelli privati è possibile definire quattro grandi categorie: a) istituzionali; b) pubbliche o di erogatori di servizio pubblico; c) private; d) enti di natura scientifica. Sono quelle fonti cui la legge ha relegato funzioni di raccolta, elaborazione e gestione di informazione statistica. Esse producono sia dati istituzionali che statistici in senso proprio. A livello nazionale, le principali italiane sono l’ISTAT, gli enti del SISTAN e gli organi dell’amministrazione centrale e territoriale dello Stato (Ministeri, Dipartimenti, Aziende autonome, Regioni, Province autonome, Province, Prefetture e Comuni). Tali fonti producono ciò che il mondo anglosassone indica come processproduced data, cioè quei dati che sono creati al fine del buon funzionamento dell’ente preposto alla loro raccolta. Il ruolo informativo di questo tipo di dati è elevato, in quanto in alcuni casi essi costituiscono l’unica risorsa per la comprensione di determinati fenomeni di rilevante interesse sociologico. Alcune fonti italiane di questo tipo sono: Aci, Agea, Apat, Coni, Inail, Inps, Inran, Ismea, Iss, Isvap, Unioncamere. Questa categoria è costituita da società e strutture private, comprese quelle a partecipazione statale. A parte le società a partecipazione statale (Ferrovie dello stato e Poste Italiane), fanno parte di questa categoria: associazioni, consorzi, organizzazioni sindacali di lavoratori dipendenti e dei datori di lavoro (ad esempio Enasarco ed Inpdap), uffici e studi di aziende private. Una seconda modalità di classificazione è delle fonti è basata sullo scopo della rilevazione. Fanno parte di questa categoria a) le fonti di origine statistica in senso stretto, ovvero quelle costituite da quel materiale che già in principio è stato raccolto con l’intento di conoscere alcuni aspetti della vita sociale b) le fonti di tipo istituzione, che comprendono quei documenti predisposti dalle amministrazioni pubbliche e private per scopi inerenti alla propria attività. Una suddivisione utile è quella che fa riferimento alla territorialità dell’ente che produce il dato. Su questa base è possibile definire almeno tre categorie di fonti. a) Internazionali b) Nazionali c) Locali Rientrano in questa categoria a) le fonti nazionali estere, ovvero tutti gli enti (pubblici ed istituzionali, privati e scientifici) che producono informazioni statistiche in base a normative di legge, funzioni di natura amministrativa o finalità conoscitive. Si tratta di un gruppo di fonti molto vario che comprende: istituti nazionali di statistica, servizi statistici regionali, ministeri, banche centrali, istituti di ricerca, fondazioni … b) le fonti sovranazionali, ovvero i servizi statistici delle organizzazioni sovranazionali. Tra le fonti sovranazionali va senza dubbio segnalato l’Eurostat (l’ufficio statistico della Commissione Europea) che svolge funzione di direzione generale della Commissione e di coordinamento dell’attività statistica comunitaria. In genere, non raccoglie le informazioni ma gestisce e rielabora i dati che gli sono inviati dagli istituti nazionali di statistica e da altre organizzazioni sovranazionali come il Fondo Monetario Internazionale. Altre fonti sovranazionali di dati sono OCSE e ONU. Le fonti statistiche nazionali sono prodotte dagli organi di amministrazione delle Stato esclusi quelli locali. Il maggior produttore di fonti nazionali è l’ISTAT, che fornisce I. Censimenti II. Indagini multiscopo III. Altre survey Come raccogliere i dati: il questionario Il questionario Si configura come un insieme strutturato di domande volte ad acquisire le informazioni necessarie per soddisfare le finalità conoscitive dell’indagine. Stabiliti gli obiettivi, diventano cruciali le fasi della messa a punto del questionario e della scelta della modalità di somministrazione agli intervistati. Il questionario La sua predisposizione chiama in causa competenze diverse, specie di psicologia cognitiva e di tecnica della comunicazione statistica, e coinvolge decisioni circa la valutazione preliminare riguardante la scelta della popolazione e le modalità di contatto; la formulazione dei quesiti; la forma e definizione della scala di misura delle risposte; la sequenza dei quesiti; il pre-test ed eventuale revisione. Il questionario Prima di mettere a punto il questionario, è necessario fissare con esattezza le informazioni che dovranno essere rilevate, presso quali unità statistiche e in che modo. Si tratta, quindi, di definire l’obiettivo conoscitivo dell’indagine, di stabilire i criteri di selezione di un campione dopo aver identificato la popolazione di riferimento per l’indagine, di fissare le modalità di contatto con gli intervistati. Linee guida per la costruzione di un questionario 1. Progettazione dell’insieme delle domande, che devono a) focalizzarsi su un singolo aspetto b) essere brevi c) essere chiare Linee guida per la costruzione di un questionario 2. Formulazione della domanda Ogni domanda dovrebbe investigare un singolo problema/aspetto. Le domande che coprono due aspetti generano confusione. Brevità: ogni domanda dovrebbe essere la più breve possibile (senza sacrificare correttezza grammaticale e chiarezza): più lunga è la domanda, meno essa è comprensibile. Linee guida per la costruzione di un questionario 3. Chiarezza L’intento della domanda dovrebbe essere chiaro ad ogni soggetto. Le domande dovrebbero essere formulate nel linguaggio del rispondente. Linee guida per la costruzione di un questionario 4. Distorsioni da evitare. il linguaggio tecnico o le sigle domande irrilevanti domande dal significato vago domande che implicano giudizi multipli domande che siano troppo specifiche o troppo generali domande che possano creare imbarazzo domande che possano “indirizzare” verso una risposta in particolare. Linee guida per la costruzione di un questionario Le indicazioni fornite servono essenzialmente a limitare la possibilità di errori non dovuti al campionamento ma al ricercatore, che può commettere errori nella formulazione delle domande, nella sequenza con cui le domande vengono poste, nei tempi di somministrazione … al rispondente, che può non ricordare oppure può assumere un atteggiamento “compiacente”, alterando di fatto la realtà all’intervistatore, che può condizionare le risposte o può registrarle in maniera errata Linee guida per la costruzione di un questionario Un modo per ridurre il numero di domande da sottoporre all’intervistato è la domanda filtro, che consente di passare direttamente da una batteria di domande ad un’altra, evitando di sottoporre all’intervistato domande non pertinenti. ESEMPIO. In un questionario, alla domanda “Lei pratica qualche sport” è possibile rispondere SI o NO. Se la risposta è affermativa, si continua ad indagare la parte del questionario che riguarda gli sport praticati, altrimenti si passa direttamente alla parte successiva. Linee guida per la costruzione di un questionario Riguardo alla formulazione, le domande di un questionario possono essere - aperte, se si chiede all’intervistato di descrivere sinteticamente un fenomeno - chiuse, se si chiede di rispondere selezionando una (o più) alternativa prevista dal ricercatore in fase di progettazione del questionario Linee guida per la costruzione di un questionario Le domande di un questionario possono essere poste in maniera - diretta, se viene chiamato direttamente in causa l’intervistato ESEMPIO. Qual è stato il suo voto di laurea? - indiretta, se ci si riferisce genericamente a una terza persona o a un gruppo di persone con caratteristiche simili ESEMPIO. Quale reddito dovrebbe avere una famiglia di 4 persone per vivere dignitosamente? Linee guida per la costruzione di un questionario Con riferimento alla modalità di risposta prevista, si distingue ancora tra - domande a risposta semplice, se è ammessa solo una risposta tra quelle possibili. - domande a risposta multipla, che consentono di scegliere più di una alternativa tra quelle proposte VANTAGGI Possibilità di esplorare i problemi più in profondità, specie se lo strumento contiene delle componenti qualitative. Facilità di risposta e quindi elevati tassi di partecipazione. Opportunità di precisare meglio le domande, se l’utente non le comprende bene. Opportunità per l’intervistatore di esplorare le ragioni delle risposte ricavandone ulteriori informazioni. Consente di utilizzare materiale visivo che riporta alternative di risposta quando esse risultano complicate. Migliore identificazione dei non rispondenti. SVANTAGGI Richiede molto tempo ed è costosa. Necessità di personale motivato, specializzato ed addestrato. Può condurre a risposte compiacenti verso le aspettative dell’intervistatore. VANTAGGI Elevati tassi di risposta dovuti alla possibilità di contattare più volte l’utenza. Più conveniente per utenti lontani dalla sede di erogazione del servizio. Maggiore semplicità di amministrazione e di immediata disponibilità dei dati per l’elaborazione con utilizzo di tecniche quali, ad esempio, il CATI. Necessità di minor formazione per gli intervistatori. SVANTAGGI Per interviste complesse può risultare costosa a causa delle spese telefoniche. Può condurre a risposte compiacenti verso le aspettative dell’intervistatore. VANTAGGI Basso costo. Facile da amministrare. Maggiore riservatezza nelle informazioni raccolte (garanzia dell’anonimato). Misura più obiettiva per mancanza dell’effetto intervistatore. Voci standardizzate. Possibilità per il rispondente di valutare con maggiore tranquillità le domande. SVANTAGGI Molti utenti non sono in grado di prendervi parte a causa di loro disabilità fisiche e mentali. Rappresenta una forma passiva di consultazione. Gli utenti anziani possono non rispondere a tutte le domande. Non c’è la possibilità di controllare le mancate risposte. VANTAGGI Risulta facile da progettare e da spedire Puoi tenere traccia dei rispondenti e dei non rispondenti rinviando a quest’ultimi il relativo sollecito SVANTAGGI E’ ottenibile solo se i partecipanti hanno un accesso via e-mail e che possono quindi scaricare il questionario Può generare confusione specie se i partecipanti scaricano il questionario compilandolo a mano piuttosto che col computer VANTAGGI Un semplice questionario può essere agevolmente progettato e posto nel sito dell’azienda Favorisce risposte di tipo qualitativo SVANTAGGI I partecipanti sono soltanto coloro che hanno accesso a internet Potrebbe accadere che i partecipanti siano un campione scarsamente rappresentativo in quanto solo quelli che hanno interesse a visitare il sito vi possono partecipare Per conoscere le caratteristiche di una popolazione, difficilmente saremo in grado di misurare tutti i suoi elementi, per motivi di costo, di tempo e di opportunità. Perciò si ricorre al campionamento statistico. Si definisce campionamento un procedimento attraverso il quale da un insieme di unità costituenti l’oggetto dello studio, si estrae un numero ridotto di casi scelti con criteri tali da consentire la generalizzazione all’intera popolazione dei risultati ottenuti. Popolazione o universo Si definisce popolazione o universo di una ricerca l’insieme dei casi che teoricamente costituiscono l’oggetto di indagine e che hanno in comune almeno una caratteristica osservabile. La ricerca studia le caratteristiche della popolazione di riferimento che costituiscono l’oggetto da conoscere; ciò significa che ogni popolazione contiene delle informazioni che il ricercatore deve raccogliere per svolgere la sua ricerca. Per questo, comunemente si dice che la popolazione è un “contenitore di informazioni”. Definizione della popolazione Quando si mette a punto una ricerca, una delle fasi consiste nel definire la popolazione di riferimento. Definire una popolazione significa, in particolare, individuare le caratteristiche interessanti per la ricerca, delimitando il campo di azione della ricerca stessa, eliminando quelle caratteristiche non utili. La definizione della popolazione dipende dagli obiettivi di ricerca. Definizione della popolazione Esempi: indagine sui redditi in Italia → popolazione: individui che percepiscono un reddito in Italia; indagine sugli affitti in Italia → popolazione: tutte le famiglie in affitto in Italia; indagine sulle prossime elezioni politiche → popolazione: tutti gli italiani con diritto di voto; indagine sull’impatto della riforma scolastica sugli studenti delle scuole superiori → popolazione: studenti italiani delle scuole superiori. La popolazione può essere teorica e accessibile. La popolazione teorica: è l’insieme di tutti i casi che costituiscono la popolazione oggetto di indagine. Es. indagine sulle prossime elezioni politiche → popolazione teorica: tutti gli italiani con diritto di voto; La popolazione accessibile: è l’insieme di tutti i casi appartenenti alla popolazione teorica che sono effettivamente raggiungibili. Es. indagine sulle prossime elezioni politiche → popolazione accessibile: parte degli italiani con diritto di voto effettivamente intervistabili. In base alla coincidenza o meno delle due popolazioni si distingue in Censimento e Survey. Censimento quando popolazione teorica e popolazione accessibile coincidono ogni caso della popolazione è esaminabile e raggiungibile e fornisce informazioni, la rilevazione esaustiva o totale Es. tutti i cittadini italiani (Istat) Survey (o indagine o inchiesta o sondaggio) quando è impossibile accedere alla popolazione teorica per problemi di costi, tempi o di raggiungibilità. Per questo è necessario effettuare l’indagine solo su una parte della popolazione, quella accessibile, selezionando i singoli casi attraverso delle procedure standard (campionamento). L’ipotesi è che un numero limitato di casi fornisce la stessa informazione che avrebbe fornito l’intera popolazione. Indipendentemente dagli obiettivi preposti, l’impossibilità di accedere alla popolazione teorica ovvero di esaminare ogni singola unità dell’intera popolazione può avere diverse cause limitate risorse economiche, di personale, di tempo disponibili; l’intera popolazione da studiare non è fisicamente raggiungibile; l’intera popolazione da studiare non è del tutto nota. Per superare questi problemi si ricorre ad una rilevazione campionaria ossia una rilevazione che permette di studiare le caratteristiche di una popolazione attraverso lo studio di una porzione di essa detta campione. Campione: parte della popolazione selezionata in modo da diminuire, in termini di tempo e costi, l’acquisizione tutte le informazioni utili per la ricerca. Il campione è la rappresentazione in piccolo di tutta la popolazione, sintetizza, cioè tutte le caratteristiche della popolazione originaria. Scegliere un campione da una popolazione significa effettuare un campionamento”. Campionamento: procedimento attraverso il quale si estrae, da un’insieme di unità (popolazione), un numero finito di casi (campione) che siano rappresentativi di tutta la popolazione e scelti con criteri tali da consentire la generalizzazione (inferenza) all’intera popolazione a partire dai risultati ottenuti studiando il campione. Motivi per utilizzare un campione l’estrazione di un campione richiede meno tempo rispetto all’esame dell’intera popolazione; un campione è meno costoso; un campione è più pratico da gestire; un campione garantisce un elevato grado approfondimento e accuratezza; spesso è una necessità perché l’esame dell’intera popolazione non è accessibile. Le valutazioni sulle caratteristiche della popolazione si basano sulle informazioni contenute in un campione estratto dalla popolazione stessa. Ciò pone un problema di stima dei parametri. Gli studi basati sulle rilevazioni campionarie, infatti, hanno lo scopo di stimare alcuni parametri ovvero dare valori approssimativi della popolazione sulla base dei parametri del campione. L’analisi delle caratteristiche di un campione avviene proprio grazie ai: Parametri: valori caratteristici (statistici) assunti dalle variabili sull’intera popolazione. Stime del parametro della popolazione: valori approssimativi e probabilistici che determinano, con un certo margine di errore, il carattere della popolazione da cui il campione deriva. Stime del parametro del campione: sono i valori rilevati sul campione. Rilevazione esaustiva/totale: stime popolazione = stime del campione → valore esatto Rilevazione campionaria/parziale: stime popolazione = stime del campione → valore stimato L’errore di campionamento La stima del parametro è probabilistica. Ciò significa che comporta un errore dovuto all’impossibilità di determinare con esattezza il parametro. Ciò che è possibile è stabilire un intervallo (detto di fiducia/confidenza) entro il quale si colloca il valore della statistica della popolazione. Al di fuori di questo intervallo si determina l’errore di campionamento, ossia un errore casuale insito nelle procedure di formazione del campione. Proprio perché la “vera” caratteristica della popolazione è (per definizione) ignota, l’errore di campionamento non può mai essere determinato con esattezza. Esso tuttavia può essere contenuto entro limiti più o meno ristretti adottando appropriati metodi di campionamento. L’errore di campionamento è rappresentato dalla differenza tra i risultati ottenuti dal campione e la vera caratteristica della popolazione che vogliamo stimare. NB: L’errore di campionamento è direttamente proporzionale all’intervallo di fiducia/confidenza e alla variabilità del fenomeno studiato ed inversamente proporzionale all’ampiezza del campione. Validità/Bontà di un campione Perché il risultati di una indagine campionaria siano generalizzabili è necessario valutare la validità (bontà) del campione. Tale valutazione può essere condotta ponendosi due quesiti: Le conclusioni sono corrette per gli individui che compongono il campione? Il campione rappresenta bene la popolazione da cui è stato estratto? La risposta ai due quesiti deriva dai concetti di validità interna e di validità esterna di uno studio statistico. Validità interna: misura quanto i risultati di uno studio sono corretti per il campione di individui che sono stati studiati. Viene detta “interna” proprio perché è relativa esclusivamente al gruppo di casi studiati e non necessariamente agli altri. La validità interna rappresenta una condizione necessaria ma non sufficiente perché uno studio sia utile. Validità esterna: è il grado di generalizzabilità delle conclusioni tratte da uno studio campionario. Essa misura il grado di verità dell’assunto secondo cui gli individui studiati con il campione sono “uguali” a quelli dell’intera popolazione che non rientrano nella rilevazione campionaria. IN GENERALE. Data una popolazione da cui viene estratto un campione - se la validità è positiva, si può sostenere che il campione rappresenta la popolazione da cui è stato estratto; - se la validità è negativa, occorre procedere ad un nuovo campionamento Criteri di bontà di un campione Un campione è valido se è: Eterogeneo, ovvero se include tutte le caratteristiche e qualità diverse. Il campione deve essere diversificato al suo interno in modo da presentare una variabilità di caratteristiche collegate alle informazioni da rilevare. Rappresentativo, ovvero se presenta, senza distorsioni, tutte le caratteristiche della popolazione di riferimento. La rappresentatività è garantita se la procedura di campionamento è casuale ossia se è regolata dalla legge caso/probabilità. Criteri di bontà di un campione Un campione è valido se è: Accurato, ovvero se il grado di minimizzazione degli errori di copertura (lista della popolazione) è elevato ed il numero di non risposte (tutti i casi del campione sono raggiungibili) è basso. Ampio, ovvero se include un numero elevato di casi. L’ampiezza è inversamente proporzionale agli errori di rilevazione. Come si determina l’ampiezza del campione? Per determinare la dimensione ottimale del campione (il campione più piccolo col minimio errore di campionamento) che consenta di stimare una percentuale ad una precisione voluta (intervallo di confidenza stabilito) si utilizzano le tavole di campionamento. Per usarle è necessario conoscere: N. delle unità che compongono la popolazione dal quale il campione deve essere tratto. L’intervallo di fiducia/confidenza al quale si intende operare. La percentuale di soggetti della popolazione che possiedono le caratteristiche richieste. L’errore campionario massimo che vuole accettare nei risultati. Da una popolazione viene estratto un campione e, con adatti test, ne viene controllata la validità: se è positiva, si può inferire che il campione rappresenta con un certo errore la popolazione da cui è stato estratto; se il test è negativo, occorre procedere ad un nuovo campionamento. Vi sono fondamentalmente 2 tipi di campioni: CAMPIONI PROBABILISTICI ciascuna unità della popolazione ha una probabilità predefinita di entrare a far parte del campione consentono una stima dell’errore di campionamento attraverso la teoria della probabilità scelta di n sulla base di un criterio probabilistico eliminano elementi di soggettività CAMPIONI NON PROBABILISTICI Nella SCELTA NON PROBABILISTICA non vale la condizione precedente. Si cerca semplicemente di fare in modo che le unità del campione presentino le stesse caratteristiche della popolazione. Rappresentatività E’ la capacità del campione di costituire una miniatura, immagine su scala ridotta, della popolazione In altre parole, Campionamento probabilistico: è la procedura di campionamento in cui i casi vengono scelti in modo che la probabilità che di ciascun caso ha di essere incluso nel campione è nota. Campionamento non probabilistico: è la procedura di campionamento in cui i casi vengono scelti in modo che la probabilità che di ciascun caso ha di essere incluso nel campione è non nota.. Campionamento probabilistico In generale, il campionamento probabilistico si basa sull’idea di scegliere casualmente le unità da includere nel campione. Idealmente, quindi, è come se tutti gli elementi della popolazione venissero messi in un’urna da cui si procede ad estrarre con probabilità nota le unità statistiche da includere nel campione. Seguendo questo metodo ogni unità ha la stessa probabilità di entrare nel campione e non c’è rischio di distorsione da selezione. Naturalmente, nella realtà i “piani di campionamento” sono più complessi dello schema descritto. L’idea che li accomuna tutti, comunque, rimane quella di selezionare in modo casuale le unità riducendo a zero (al minimo) gli elementi di arbitrarietà nella selezione. Ancora, un campionamento si dice probabilistico quando per ciascun caso la probabilità di essere estratti è nota ed è diversa da zero. Consente, inoltre, l’inferenza, ovvero la generalizzazione dei risultati a tutta la popolazione. In un CP è fondamentale la conoscenza dell’universo: per poter estrarre in modo probabilistico i casi dalla popolazione è necessario avere dati sull’universo teorico, è necessario, cioè, disporre di informazioni circa le caratteristiche della popolazione. N = corrisponde ai numero dei soggetti nella popolazione oggetto di indagine. n = corrisponde al numero dei soggetti nel campione. K = n/N = rapporto di campionamento Campionamento casuale semplice E’ la più semplice tecnica di selezione di un campione; il procedimento è sostanzialmente simile allo schema di estrazione da un’urna. Un campione casuale semplice è un campione in cui ogni individuo della popolazione ha la stessa probabilità di essere scelto. Se si indica con n la dimensione del campione (numero di elementi del campione) e con N la dimensione della popolazione, (numero di elementi della popolazione), nel campionamento casuale semplice la probabilità che ogni individuo della popolazione ha di essere scelto alla prima estrazione (rapporto di probabilità) è 1/N. In questo tipo di campionamento è necessaria la presenza di una lista della popolazione. Campionamento casuale semplice - con reinserimento E’ la più semplice tecnica di selezione del campione. Si estrae un campione in cui ogni unità della popolazione ha la stessa probabilità di essere selezionata, pari ad 1/N. La caratteristica fondamentale è che dopo ogni estrazione, l’estratto viene reinserito nella popolazione. La probabilità di essere estratti è sempre 1/N Campionamento casuale semplice - senza reinserimento Si estrae un campione da una popolazione N, evitando di reinserire il soggetto/individuo/… che è stato estratto. Ogni unità ha probabilità 1/N di essere selezionata alla prima estrazione, le rimanenti hanno probabilità 1/(N-1) alla seconda e così via. Uno dei metodi impiegati per ottenere un campione casuale è la tavola dei numeri casuali PREGI E’ privo di errori di selezione: nessuna unità o gruppo di unità è favorito a priori E’ molto semplice ed ha quindi un basso costo DIFETTI E’ necessario disporre di una lista completa delle unità. Può non essere “rappresentativo”: alcune particolari sezioni della popolazione potrebbero non essere rappresentate. Non sfrutta informazioni ausiliarie eventualmente disponibili sulla popolazione La rilevazione sul campo può essere molto costosa se l’intervista viene effettuata attraverso un rilevatore e le unità selezionate sono fra loro lontane (alti costi di spostamento). Campionamento casuale semplice: procedura Con sorteggio Ad ogni numero è associato ad un soggetto estrazione di un numero da un’urna; ricorso ai numeri casuali generati dai computer; utilizzo della tavola dei numeri casuali. Senza sorteggio si predispongono in un’urna tanti bigliettini quanti sono gli elementi della popolazione e se ne estraggono un n prestabilito; si inseriscono nomi dell’intera popolazione in un foglio elettronico e si numerano in ordine alfabetico da 1 a N. Si estraggono i casi da includere nel campione in modo casuale (dati o 1 caso ogni tot.); tavola numeri casuali: se N ha 3 cifre si seleziona la prima tabella con 3 cifre e si procede o in verticale, diagonale orizzontale. Campionamento sistematico E’ tipo particolare di campionamento casuale semplice dove le unità campionarie sono individuate sistematicamente una ogni dato intervallo. Nel campionamento sistematico le n unità che costituiranno il campione sono scelte dalla popolazione ad intervalli regolari ossia in base ad una regola prefissata. Questo metodo assicura anche che le singole unità del campione siano distribuite uniformemente all’interno della popolazione. Occorre tuttavia porre attenzione che l’intervallo di campionamento prescelto non sia influenzato da qualche variabile esterna che agisce con la stessa ciclicità del campionamento. Il campionamento sistematico è facile da eseguire, ma il suo uso acritico può portare con facilità a campioni affetti da errori sistematici; rischio che non c’è con il campionamento casuale semplice. Campionamento sistematico – procedura Si calcola il “passo di campionamento” (che è l’inverso della “frazione di campionamento”): k = N/n e si arrotonda k all’intero. Si estrae a caso un numero r compreso fra 1 e k. Il campione sarà costituito dalle unità che corrispondono alle posizioni della lista: [ r , r + k , r + 2k , ….. , r + (n –1)k ] Il numero r identifica la prima unità, dopodiché se ne astraggono sequenzialmente una ogni k. E’ il metodo utilizzato dall’ISTAT per estrarre dalle liste anagrafiche. Se il modo in cui le unità sono elencate nella lista può considerarsi casuale, il campionamento sistematico può considerarsi a tutti gli effetti analogo al campionamento casuale semplice. Campionamento stratificato Se si ritiene che un campione casuale semplice possa non rappresentare nelle giuste proporzioni sezioni fra loro eterogenee della popolazione, si può procedere alla stratificazione. Il procedimento di stratificazione consiste: 1. nel raggruppare le unità della popolazione in strati il più possibile omogenei al loro interno rispetto al carattere (od ai caratteri) investigati; 2. nell’estrarre casualmente un certo numero di unità campione da ciascuno strato. La stratificazione deve essere effettuata sulla base di uno o più caratteri noti su tutti gli elementi della popolazione e legati al carattere indagato: quanto più stretto è il legame fra le variabili di stratificazione e la variabile oggetto di indagine, tanto più efficace sarà la stratificazione. Si può estrarre da ciascuno strato un numero di unità proporzionale alla dimensione dello strato (allocazione proporzionale) oppure privilegiare gli strati in cui l’eterogeneità (la varianza) è maggiore (allocazione ottima di Neyman). In generale, si può sostenere che questo tipo di campionamento si utilizza quando, essendo in possesso di una lista completa della popolazione, si intende studiare un carattere specifico – e determinante- della popolazione di riferimento. Con questa strategia di campionamento è possibile assicurare la rappresentatività dei sottogruppi della popolazione. NB: lo stato di tutte le unità di campionamento, rispetto ai fattori su cui è basata la stratificazione, deve essere noto prima di scegliere il campione. Campionamento stratificato random: procedura Si divide la popolazione in sottocampioni/strati omogenei in base ad una caratteristica della popolazione (caratteristica = regione di residenza, strati = Nord centro sud) Si effettua un campionamento casuale semplice in ogni strato I sotto campioni definiscono, nel loro insieme, il campione basato sulle variabili stratificanti. Esempio: Ricerca sul reddito degli italiani Si divide la popolazione per professione in 4 strati: operai impiegati autonomi e professionisti. Estraiamo in modo casuale un campione da ciascuno strato e si unifica il campione. Campionamento stratificato proporzionale Propone la riproduzione della stessa composizione degli strati nella popolazione, utilizzando gli stessi rapporti di campionamento per i diversi strati. Esempio Se gli operai sono il 40% della Popolazione, impiegati 40%, autonomi 15% e professionisti 5% e il campione è n = 1000 allora si prenderanno operai 400 impiegati 400, autonomi 150 e professionisti 50. Campionamento stratificato non proporzionale Si sovra/sottorappresenta uno strato utilizzando rapporti di campionamento diversi per i diversi strati. Si usa in genere quando si vogliono sovra rappresentare gli strati meno numerosi della popolazione. Campionamento a stadi Consiste nella selezione delle “unità di primo stadio”, all’interno delle quali vengono selezionate alcune unità di uno stadio successivo, e via di seguito. Si utilizza quando non è disponibile una lista complessiva delle unità della popolazione. A questo tipo di campionamento si ricorre per necessità in quanto le stime con esso ottenibili sono di solito meno efficienti (maggior variabilità campionaria) di quelle calcolate applicando un campione casuale semplice. E’ definito sulla base di scelte e procedure successive che passano per più stadi. Campionamento a stadi – procedura 1. Individuazione delle unità di primo stadio, dette unità primarie, che costituiscono dei raggruppamenti delle unità di secondo stadio, dette unità secondarie. Non devono esistere dubbi sull’appartenenza di ogni unità di secondo stadio ad una data unità di primo stadio. 2. Formazione della lista delle unità di primo stadio. 3. Selezione casuale di alcune unità di primo stadio. 4. Selezione casuale di alcune unità di secondo stadio da ciascuna unità di primo stadio estratta. La popolazione viene divisa in gruppi gerarchicamente ordinati. I casi vengono estratti con un procedimento “ad imbuto”.. Esempio di tale situazione è dato dall’anagrafe che non esiste come unico archivio nazionale ma è suddivisa negli 8.103 comuni italiani. In questo caso si procede: 1. estrazione casuale di un campione di comuni (unità di primo stadio); 2. estrazione di un campione casuale di famiglie (unità di secondo stadio) da ciascuna lista anagrafica per ogni comune selezionato. Campionamento per aree E’ un tipo di campionamento a stadi dove lo stadio è un’area geografica. Si utilizza quando non si dispone di una lista per la selezione delle unità e queste sono dislocate sul territorio. In questo caso si procede ad una suddivisione in parti (aree) dell’intero territorio e all’estrazione di un campione di aree. Quindi si esplorano le aree campionate, allo scopo di enumerare esaustivamente le unità presenti al loro interno e produrre delle liste complete. Infine, dalle liste prodotte, si estraggono le unità campione da contattare per la rilevazione vera e propria. Campionamento per aree Dal punto di vista teorico il campionamento per aree deve essere considerato una forma particolare di campionamento a più stadi. Esempio: Ricerca sugli Italiani MULTISTADI Macroarea/Regioni/Province/Comuni/Zona rurale-urbana/individui Campionamento a grappoli (cluster) E’ un tipo di campionamento a stadi. E’ utilizzato quando la popolazione risulta naturalmente divisa in gruppi/grappoli (Esempio: classi scolastiche, reparti aziendali ecc.). Presupposto: la popolazione è suddivisa, in modo naturale o artificiale, in sottoinsiemi di unità, generalmente legati da vincoli di contiguità spaziale. Per “grappolo” si intende un sottoinsieme degli elementi della popolazione che viene trattato come un’unica entità ai fini del campionamento. I grappoli, inoltre, costituiscono una partizione della popolazione, al pari degli strati, ma le loro caratteristiche sono diverse: · sono generalmente predeterminati per scopi amministrativi · è opportuno che siano eterogenei al loro interno ed omogenei fra loro. Campionamento a grappoli (cluster) - procedura Le fasi del campionamento a grappoli sono le seguenti: 1. ripartizione delle unità della popolazione in grappoli (anch’essi devono costituire una partizione della popolazione); 2. formazione della lista dei grappoli; 3. selezione casuale di alcuni grappoli: il campione risulta costituito da tutte le unità appartenenti ai grappoli prescelti. Questa tecnica di campionamento è stata proposta nelle indagini di mercato per evitare di avere una distribuzione dei campioni in un territorio molto vasto. Esempio Ricerca sugli studenti Istituti superiori/Sezioni/Classi/tutti gli studenti delle classi (grappolo) campionate casualmente PREGI 1. Se i grappoli sono insiemi di unità territorialmente o fisicamente vicine, i costi di spostamento da un’unità all’altra all’interno di un grappolo sono molto bassi, e quindi si riducono i costi complessivi di rilevazione. 2. Richiede soltanto la lista dei grappoli e delle unità statistiche appartenenti ai soli grappoli estratti. DIFETTI 1. Poiché raramente l’omogeneità fra i grappoli è perfetta, il campionamento per grappoli non assicura la stessa rappresentatività del campionamento stratificato, presentando quindi una minore efficienza (limita la casualità) Campionamento non probabilistico Un campionamento si dice non probabilistico quando per ciascun caso la probabilità di essere incluso nel campione non è nota. In un CNP la conoscenza dell’universo non è necessaria Il CNP non consente l’inferenza per questo i risultati sono estendibili solo al campione. In generale, quindi si ha un campionamento non probabilistico quando le unità della popolazione non hanno una probabilità predefinita e non nulla di entrare a far parte del campione. Questo comporta che è un tipo di campione che non permette la valutazione dell’errore campionario. La scelta delle unità campionarie non è di natura casuale, bensì viene effettuata sulla base di informazioni riguardanti la popolazione indagata. · E’ appropriato per piccoli campioni. Se, ad esempio, per motivi economici un’indagine deve essere limitata a due sole città, sarà opportuno scegliere le città con criteri mirati, avendo cura che esse appartengano alla tipologia più rilevante ai fini della ricerca. · E’ una scelta obbligata quando non è possibile accedere alla lista delle unità della popolazione. La rappresentatività del campione ragionato dipende dalla competenza del gruppo di esperti e quindi del loro livello di conoscenza della popolazione. È un campionamento ragionato La differenza con il campionamento probabilistico, quindi, è rappresentata dalla selezione non casuale dei campioni. Si ribadisce, infatti, che il campionamento non probabilistico non fornisce a ciascuna unità della popolazione la stessa occasione di essere parte del campione: alcuni gruppi o individui hanno maggiore probabilità di essere scelti, altri meno. Questo metodo, infatti, prevede la selezione del campione in base a criteri di comodo o di praticità: per esempio, perché gli elementi da campionare sono più facilmente accessibili, o per ragioni di costo, o perché in una certa zona sono disponibili volontari ecc. Un campione selezionato con questi criteri, sebbene abbia il vantaggio della rapidità, fornisce dati poco affidabili e può essere facilmente viziato da errori sistematici. Tipi di campionamento non probabilistico Campionamento a casaccio Campione di esperti Campionamento per quota Campionamento a scelta ragionata Campionamento a valanga o a catena o a palla di neve Campionamento telefonico/sistema CATI Campionamento di convenienza/di disponibilità Campionamento a casaccio E’ costruito in modo accidentale senza nessun criterio di base. Esempio 1: sondaggio elettorale telefonico. Si intervistano le prime 100 persone che rispondono al telefono (considerare orario ecc). Esempio 2: in un sondaggio di opinioni all’interno di una piccola azienda con 200 impiegati si vuole studiare la valutazione attribuita alla qualità della mensa. A questo scopo si decide di esaminare un campione composto da 20 persone. Per motivi di convenienza, si intervistano le prime 20 persone che si presentano in sala mensa. Questo criterio é molto pratico, in quanto non bisogna attendere l’arrivo di tutti i dipendenti; tuttavia, si esamineranno impiegati di livello più basso: i dipendenti più impegnati o comunque meno “affamati” non entreranno a far parte del campione. Questo campione, è dunque viziato da un errore sistematico. Campione di esperti E’ costituito da soggetti che si ritiene siano particolarmente informate su certi argomenti. E’ utilizzato nelle ricerche di tipo qualitativo (focus group). Si distinguono: Opinion leader (figure socialmente influenti). Testimoni privilegiati (figure non socialmente importanti ma detentori). Campionamento per quota Ha la stessa logica del campionamento stratificato, ma le quote all’interno di ciascuno strato sono selezionate dai ricercatori con criteri non probabilistici. Si ottiene definendo un dato numero di soggetti da campionare secondo certe variabili, o in base ad una quota fissa (100 operai, 100 contadini, ecc) o mantenendo una certa proporzione tra universo e campione ( se in una città ci sono 30% di operai e 70% di contadini si cerca di mantenere la stesa quota nel campione ma la scelta nei singoli strati non rispetta le regole della probabilità). Campionamento a scelta ragionata Le unità campionarie vengono scelte in modo razionale sulla base di alcune loro caratteristiche, e si utilizza quando l’ampiezza del campione è limitata. Esempio: Campione Prospex dell’Istituto Cattaneo IARD I Comuni italiani sono stati classificati in 20 stati derivanti dall’incrocio fra la dimensione del comune (meno di 5000 abitanti, 10-50 mila; 50-100 mila; oltre 10 mila) e zona geografica (Nord-Centro – Sud e Isole). Per ogni strato si è scelto un numero di comuni sulla base del peso demografico della popolazione residente ( Es. la popolazione dei comuni del nord con 5000 abitanti è il 6% della popolazione totale sono stati scelti 6 comuni). Campionamento a valanga (o a catena o a palla di neve) E’ utilizzato nel caso la popolazione sia costituita da soggetti che tendono ad occultare la loro identità (omosessuali, prostitute ecc.) o sono di difficile reperibilità (clandestini ecc). Consiste nel selezionare i casi utilizzando le reti relazionali (sociali, culturali, politiche) di un gruppo di persone inizialmente contattate. Es. Indagine sugli immigrati senza permesso di soggiorno Si contatta un immigrato, lo si sottopone ad intervista e poi gli si chiede di indicare un altro immigrato di sua conoscenza disposto a rilasciare l’intervista. 6. Campionamento telefonico/sistema CATI Si utilizza nelle inchieste telefoniche ed è gestito dal software CATI che seleziona i soggetti da intervistare direttamente dagli elenchi telefonici. 7. Campionamento di convenienza o di disponibilità Si utilizza quando i soggetti da intervistare sono irraggiungibili e ci si basa unicamente su gruppi volontari. Vantaggi e svantaggi dei campioni probabilistici e non probabilistici Note di uso per la pianificazione un disegno campionario In generale, quando si intende mettere a punto un’indagine campionaria è importante: Adottare una strategia di campionamento testata, monitorata e valicata. Considerare più disegni di campionamento alternativi e valutarli alla luce di informazioni disponibili quali censimenti, indagini precedenti, dati amministrativi o appositi studi pilota. Prevedere una certa flessibilità nel disegno in maniera da far fronte a necessità quali l’aggiornamento delle probabilità di selezione o una riduzione della dimensione campionaria. Prevedere una rotazione del campione qualora si desideri fornire stime di variazioni efficienti e si voglia limitare il carico della rilevazione sulle unità statistiche. Prevedere metodi per trattare il caso in cui alcune delle unità indagate si scoprano non appartenere allo stato loro assegnato o non rientrare nella classificazione loro attribuita. Considerare nella fase di disegno del campione anche problemi connessi agli errori di campionamento quali l’impossibilità di contattare qualche unità, il contatto di unità non appartenenti alla popolazione (ad Esempio un’impresa dove ci si aspetta una famiglia) o il rifiuto a partecipare all’indagine. Un’indicazione “tecnica” GENERARE I NUMERI CASUALI IN EXCEL •Sulla barra della formula scrivere =CASUALE.TRA(1;1000) • Premere Invio • Trascinare la formula sulle celle sottostanti per generare la quantità di numeri casuali necessari • Annotare i numeri generati: se si chiude il programma o si fa un’altra operazione, infatti, Excel estrae di nuovo i numeri casuali N.B. Per default “Excel” produce numeri con decimali: per visualizzare soltanto i numeri interi cliccare il menù “Formato”---“Celle” e dalla videata selezionare i seguenti valori: Categoria = “Numero” ; Posizioni decimali = “0”
© Copyright 2025 ExpyDoc