340 likes | 489 Views
Problemi di copertura e gestione della qualità dei dati in Whip. Roberto Quaranta *. *contatti http://sites.carloalberto.org/quaranta/. Problemi di copertura e gestione della qualità dei dati in Whip. WHIP è una banca dati di storie lavorative.
E N D
Problemi di copertura e gestione della qualità dei dati in Whip Roberto Quaranta * *contatti http://sites.carloalberto.org/quaranta/
Problemi di copertura e gestione della qualità dei dati in Whip WHIP è una banca dati di storie lavorative. Permette di studiare i fenomeni socio-economici legati al mercato del lavoro. Tempi di rientro nell’occupazione dipendente Italia
Transizioni tra lavoro dipendente e altre gestioni Individui sopra i 50 anni Turnover, tassi di associazione, separazione e gwt negli anni
Per far questo è importante affrontare e definire il tipo di copertura e la gestione della qualità dei dati • definire bene di chi e di quali storie lavorative stiamo parlando • garantire un’informazione coerente e allo stesso tempo che permetta un utilizzo agevole da parte del ricercatore
I dati che permettono la costruzione di WHIP sono di natura amministrativa e provengono dall’INPS. I dati che ci vengono forniti non sono raccolti per scopi di ricerca ma per scopi gestionali e amministrativi. Chi è presente è definito per legge, le leggi possono cambiare. Le informazioni contenute sono stabilite da normative, circolari... Non tutte le informazioni raccolte servono agli scopi amministrativi e gestionali
WHIP da dove nasce... La fonte originaria dei dati è costituita dagli archivi amministrativi dell’Inps, dai quali viene estratto un ampio campione casuale di record (1/90). le informazioni presenti riguardano gli individui che nell’arco della loro vita lavorativa e di pensionamento hanno avuto rapporti con Inps. … perché hannoversato contributi per la pensione … perché percepiscono delle prestazioni pensionistiche (trattamenti diretti, assegni di invalidità …) e non pensionistiche (sussidio di disoccupazione, mobilità …)
WHIP contiene... Adesso... • Episodi di lavoro parasubordinato • Episodi di disoccupazione (sussidiate) • Episodi di mobilità • Episodi di lavoro dipendente nel settore privato • Attività di lavoro autonomo (artigiano e commerciante) • Episodi di pensionamento erogate dall’Inps In futuro... • Episodi di LSU (lavori socialmente utili) • CIG • Casellario delle pensioni
Mancano ... • Gli episodi lavorativi da dipendente pubblico • quasi tutti gli agricoli • Gli episodi lavorativi da liberi professionisti dotati di una cassa previdenziale autonoma (notai, avvocati, ...)
La banca dati WHIP deve permettere di effettuare delle analisi socio-economiche, per fare questo si deve fare in modo che l’oggetto che si vuole studiare sia ben definito. La banca dati deve essere costruita da un campione rappresentativo dell’“oggetto” d’analisi. Per fare questo si deve passare da una popolazioneInps ad una popolazione adatta ad indagini di tipo statistico – economico si devono armonizzare le informazioni in particolare le informazioni che riguardano i lavoratori dipendenti Perché non tutti presenti in INPS restringendo il nostro interesse al settore PRIVATO non agricolo.
Uniformiamo i dati prendendo solo alcuni settori (Ateco81). Non consideriamo: Settore Agricolo e ... 91 Enti e aziende pubbliche 92 Servizi d'igiene pubblica ed amministrazione di cimiteri 93 Istruzione 95 Sanità e servizi veterinari 96 Altri servizi sociali
Enti ed imprese con prestazioni pensionistiche alternative e/o sostitutive all’INPS Documento ISTAT: “L'utilizzo dei dati INPS per la stima trimestrale del numero dei dipendenti, le retribuzioni, il costo del lavoro e le ore lavorate”
Gestione della qualità dei dati e successiva pubblicazione La gestione della qualità è eseguita in due fasi: IN ENTRATA - ricezione e lavorazione dei dati si raccolgono: • informazioni sugli archivi e sulle variabili • informazioni normative e altro • informazioni sulle codifiche dei dati • individuazione dati mancanti e/o scorretti e gestiscono le informazioni mancanti e quelle scorrette IN USCITA - fase di pubblicazione • si ricodificano le informazioni, le informazioni mancanti e/o scorrette • si integrano, si correggono o si evidenzia che l’informazione è mancante
L’analisi di qualità dei dati ricevuti e la ricodifica delle informazioni La procedura di costruzione di WHIP può esser vista come una scatola nera che prende in input gli archivi forniti da Inps, li elabora, e restituisce come risultato degli archivi che rispondono a finalità di analisi statistico-economica. Le operazioni fondamentali della procedura sono: • La normalizzazione, pulizia e ricodifica • L'identificazione longitudinale delle imprese • L'identificazione longitudinale dei rapporti di lavoro • Il consolidamento dei record contributivi in dati annui dei rapporti di lavoro
Inputs Archivi forniti da Inps Outputs ricezione dei dati raccolta documentazione analisi qualità dei dati documentazione on line ricodifica delle informazioni identificazione longitudinale delle imprese identificazione longitudinale dei rapporti di lavoro archivio di storie lavorative
Normalizzazione, pulizia e ricodifica Le Istruzioni di compilazione dei moduli Inps Le Circolari Inps I CUD e la normativa Personale INPS ricezione degli archivi sorgente raccolta documentazione Codifica Correzione Ricodifica analisi qualità dei dati ricodifica delle informazioni
L’analisi di qualità dei dati ricevuti ricodifica delle informazioni archivi sorgente codifiche • Gestiamo: • valori mancanti • codici non riconosciuti
Esempi di correzione e ricodifica Variabile: Qualifica Inps (originale) Valori Frequenze % V. cumulati % ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 84074 54.63 84074 54.63 2 51767 33.64 135841 88.26 3 1529 0.99 137370 89.25 4 413 0.27 137783 89.52 5 7102 4.61 144885 94.14 6 722 0.47 145607 94.61 7 288 0.19 145895 94.79 8 252 0.16 146147 94.96 9 2 0.00 146149 94.96 D 2 0.00 146151 94.96 O 3681 2.39 149832 97.35 R 106 0.07 149938 97.42 S 1 0.00 149939 97.42 T 1 0.00 149940 97.42 W 829 0.54 150769 97.96 X 3 0.00 150772 97.96 Y 3136 2.04 153908 100.00 Valori missing 493
Qualifica Inps (ricodificata) codifica variabile, ricodifica e segnalazione informazioni mancanti e non corrette Valori Frequenze % V. cumulati % ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 8454 5.49 153907 100.00 2 88477 57.49 88477 57.49 3 55445 36.02 143922 93.51 5 1531 0.99 145453 94.51 ood 1 0.00 153908 100.00 missing 493
Inquadramento: Situazione iniziale Valori originali Frequenze ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 0 7 0.45 7 0.45 00 1 0.06 8 0.52 000 2 0.13 10 0.64 0000 1 0.06 11 0.71 0002 4 0.26 15 0.97 0003 5 0.32 20 1.29 0004 1 0.06 21 1.35 0007 1 0.06 22 1.42 001 11 0.71 33 2.13 002 4 0.26 37 2.38 07 1 0.06 101 6.51 1 51 3.29 152 9.79 1 / 3 0.19 155 9.99 1 L 1 0.06 156 10.05 10 2 0.13 158 10.18 11 3 0.19 161 10.37 1150 1 0.06 162 10.44 12 2 0.13 164 10.57 130 1 0.06 165 10.63 14 1 0.06 166 10.70 160 1 0.06 167 10.76 18 1 0.06 168 10.82 198 1 0.06 169 10.89 1^ 2 0.13 171 11.02 1^LI 1 0.06 172 11.08 2 375 24.16 547 35.24 2 GR 1 0.06 548 35.31 2 L 4 0.26 552 35.57 2 LI 3 0.19 555 35.76 ancora...
2 LV 1 0.06 556 35.82 2' 2 0.13 558 35.95 2'L. 1 0.06 559 36.02 2. 17 1.10 576 37.11 2.L 1 0.06 577 37.18 2/L 5 0.32 582 37.50 20 8 0.52 590 38.02 25 1 0.06 591 38.08 254 1 0.06 592 38.14 2B 1 0.06 593 38.21 2D 2 0.13 595 38.34 2L 38 2.45 633 40.79 2LIV 12 0.77 645 41.56 2O 1 0.06 646 41.62 2^ 3 0.19 649 41.82 2^L 3 0.19 652 42.01 D 8 0.52 1516 97.68 D2 1 0.06 1517 97.74 DIR 1 0.06 1518 97.81 DIR. 1 0.06 1519 97.87 DOM 1 0.06 1520 97.94 E/2 2 0.13 1522 98.07 EP 1 0.06 1523 98.13 II 2 0.13 1525 98.26 IM.5 1 0.06 1526 98.32 L 2 0.13 1528 98.45 L.2 3 0.19 1531 98.65 L.4 1 0.06 1532 98.71 L.DO 1 0.06 1533 98.78 L3 5 0.32 1538 99.10 L4 1 0.06 1539 99.16 L5 5 0.32 1544 99.48 L6 1 0.06 1545 99.55 LD 3 0.19 1548 99.74 LV3 1 0.06 1549 99.81 OP. 1 0.06 1550 99.87 QD 1 0.06 1551 99.94 V 1 0.06 1552 100.00
Risultatofinale Valori Frequenze % V. cumulati % ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 76 5.17 76 5.17 2 520 35.35 596 40.52 3 407 27.67 1003 68.18 4 180 12.24 1183 80.42 5 162 11.01 1345 91.43 6 66 4.49 1411 95.92 7 51 3.47 1462 100.00 Missing 105
Correzione Retribuzione Numero di correzioni fatte su ogni anno Sembrano poche correzioni
Correzione Retribuzione 1997 Variabile media Std Dev Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ comp_correnti 22.118 21.349 1062.980 comp_altre 3.514 6.025 641.240 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1998 Variabile media Std Dev Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ comp_correnti 39.284 1.488.292 504.035.062 comp_altre 6.702 130.853 16.836.674 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1999 Variabile media Std Dev Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ comp_correnti 28.304 964.855 234.219.252 comp_altre 4.665 293.959 117.575.969 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
L’analisi di qualità dei dati pubblicati • In fase di pubblicazione vengono eseguiti ulteriori controlli: • sui dati mancanti • sui dati scorretti
... Correzioni meno consistenti • Provincia di lavoro ... e più consistenti:
L'identificazione longitudinale delle imprese e delle trasformazioni societarie Serve per poter avere dati di impresa affidabili (e di conseguenza anche per poter identificare i rapporti di lavoro) E’ necessaria perché WHIP ha una dimensione longitudinale che è ben superiore al numero di anni (cinque) per i quali l'Inps costruisce i record dell'Osservatorio delle Imprese, dal quale è estratto il campione oggetto di fornitura. Tra edizioni successive dell'Osservatorio possono cambiare i codici identificativi delle imprese, e può cambiare la composizione stessa dell'impresa per scorpori, fusioni e altre trasformazioni societarie.
L'identificazione longitudinale dei rapporti di lavoro Non esistendo una relazione uno a uno tra gli episodi di contribuzione dichiarati e rapporti di lavoro instaurati dalla persona (la relazione è del tipo molti a molti). Non è registrata esplicitamente una data di inizio del rapporto di lavoro, e la data di cessazione - seppur presente - è di qualità carente, sia in termini di valori missing che di valori scorretti
Impatto della ricostruzione sulla identificazione dei rapporti di lavoro