370 likes | 479 Views
Il progetto di miglioramento della qualità dei dati nell’Agenzia delle Entrate. Dott. Salvatore Costa Agenzia delle Entrate Direzione Centrale Sistemi e Processi. La struttura organizzativa. 1° gennaio 2001: Ristrutturazione del Ministero delle Finanze ed avvio operativo delle Agenzie fiscali
E N D
Il progetto di miglioramento della qualità dei dati nell’Agenzia delle Entrate Dott. Salvatore CostaAgenzia delle Entrate Direzione Centrale Sistemi e Processi
La struttura organizzativa • 1° gennaio 2001: Ristrutturazione del Ministero delle Finanze ed avvio operativo delle Agenzie fiscali • Agenzia delle entrate • Agenzia delle dogane • Agenzia del territorio • Agenzia del demanio • Ministero “snello” Agenzia delle Entrate
Il patrimonio informativo dell’Agenzia delle Entrate • Anagrafe dei contribuenti 81 mln. (CF attribuiti a PF) • Dichiarazioni dei redditi 300 mln. • Dichiarazioni I.V.A. 60 mln. • Atti del Registro 70 mln. • Conto fiscale 7,5 mln. • Rimborsi I.V.A. 3,1 mln. • Rimborsi IRPEF 64 mln. Agenzia delle Entrate
I flussi di dati ENTI PREVIDENZIALI AZIENDE FORNITRICI DI UTENZE PUBBLICHE AMMINISTRAZIONI CAMERE DI COMMERCIO ENTI ASSICURATIVI POSTE Agenzia Entrate BANCHE ENTI LOCALI GUARDIA DI FINANZA ORDINI PROFESSIONALI Agenzia delle Entrate
Rilevanza delle logiche di qualità • Enorme patrimonio informativo, da gestire secondo canoni di • Correttezza • Completezza • Coerenza di formato e di valore • Attualità (Tempestività di aggiornamento) • Difficoltà di approccio totale e definizione del primo dominio di intervento:Archivio Anagrafico delle Persone Fisiche (A.A.) Agenzia delle Entrate
Motivazioni della scelta • A.A. contiene: CF, dati anagrafici, residenza, decesso. • CF: codice identificativo individuale • È la principale chiave d’accesso a tutte le basi dati dell’Agenzia • Tutti i rapporti tra PP.AA. e altri soggetti, pubblici o privati, vanno tenuti sulla base del CF • È inserito nella carta d’identità elettronica • Residenza • Esigenza costante di corretta reperibilità del contribuente Agenzia delle Entrate
Metodologia di lavoro - introduzione • Con il supporto di Telcordia Technologies (1999) è stata definita una metodologia per la definizione di un piano di qualità dei dati Agenzia delle Entrate
Metodologia di lavoro • Definizione del sistema oggetto di analisi: Base dati dell’Archivio Anagrafico delle Persone Fisiche • Definizione di una lista di “macro problemi“ • Non correttezza dati anagrafici (Comuni, AIRE) • Soggetti con doppia posizione in archivio • Obsolescenza dei dati di residenza e/o loro mancata normalizzazione • Non correttezza e/o incompletezza dei dati di decesso Agenzia delle Entrate
Metodologia di lavoro • Descrizione dei flussi di dati in ingresso/uscita relativamente alle seguenti operazioni • Attribuzione nuovo CF • Variazione residenza • Variazione dati anagrafici • Acquisizione/correzione informazioni di decesso Agenzia delle Entrate
Esempio: Attribuzione nuovo CF Agenzia delle Entrate
Esempio: Variazione di residenza Agenzia delle Entrate
Metodologia di lavoro • Definizione dei data steward • Comuni • Detentori istituzionali dei dati anagrafici, di residenza e di decesso • Uffici finanziari • Tramite le transazioni di attribuzione / variazione CF, variazione di residenza, acquisizione / variazione informazioni di decesso • Contribuenti • Invio di dichiarazioni / atti Agenzia delle Entrate
Metodologia di lavoro • Definizione di attributi di alto livello e meta-attributi Agenzia delle Entrate
Metodologia di lavoro • Definizione dei meta-attributi: • Chi: sorgente dell’informazione • Quando: data ultima modifica • Cosa: tipo di operazione • Stato: Non controllato, verificato corretto, verificato non corretto, corretto • Nella maggior parte dei casi tratta di riportare a livello di schema dati parte delle informazioni presenti nei log delle transazioni. Agenzia delle Entrate
Metodologia di lavoro • Definizione dei vincoli di qualità • Definiti per ogni attributo di alto livello, sulla base della lista dei macro problemi, con riferimento alle dimensioni della qualità rilevanti per ciascun attributo • Definizione degli indicatori di qualità • Definiti, a partire dai vincoli di qualità; devono essere grandezze misurabili che evidenziano quanto i dati rispettano i vincoli definiti Agenzia delle Entrate
Definizione dei vincoli - schema Agenzia delle Entrate
Indicatori di qualità (esempio) Agenzia delle Entrate
Indicatori di qualità (esempio) Agenzia delle Entrate
Il piano di intervento sui dati - Allineamento • Allineamento con le Anagrafi comunali, secondo le regole definite di concerto con il Ministero dell’Interno • Fase iniziale di confronto: il Comune invia l’intera anagrafe dei residenti. Se c’è identità completa di dati anagrafici, aggiorno l’A.A. con il dato di residenza Agenzia delle Entrate
Il piano di intervento sui dati - Allineamento • (segue) • Fase di trattamento difformità (attivata prioritariamente con i Comuni che partecipano alla sperimentazione CIE): se esiste nell’A.A. un unico soggetto che differisce per un solo dato anagrafico e con residenza “somigliante”, si aggiorna l’A.A. (dati anagrafici e residenza) dopo la verifica svolta dal Comune Agenzia delle Entrate
Il piano di intervento sui dati - Allineamento • (segue) • Trattamento casi residuali: si mettono a disposizione del Comune gli strumenti per l’aggiornamento online dell’A.A. (dati anagrafici) • A regime (mantenimento dell’allineamento) • Il Comune invia periodicamente le variazioni anagrafiche (nascite, variazioni di residenza, decessi) Agenzia delle Entrate
Alcuni dati numerici – Fase trattamento difformità Agenzia delle Entrate
Il piano di intervento sui dati – Normalizzazione degli indirizzi • Obiettivo: costituire una banca dati che contenga per ogni soggetto le informazioni di spedizione, secondo gli standard postali • Convenzione con Poste Italiane S.p.A.: servizio di normalizzazione e riconoscimento degli indirizzi Agenzia delle Entrate
Il piano di intervento sui dati – Normalizzazione degli indirizzi • Unicità dell’interlocutore • 1 vs. 8100, non trattabili uniformemente e non tutti informatizzati/normalizzati • Fornitura di servizio e non di stradario • Non ci sono carichi di sviluppo software per l’Agenzia, a meno dell’alimentazione del sistema • Possibilità di integrazione con gli esiti di recapito e la motivazione dell’eventuale mancato recapito • Verifica dell’efficacia del servizio misurata dal sistema stesso Agenzia delle Entrate
Il piano di intervento sui dati – Individuazione dei CF duplicati • Identificazione dei soggetti con doppie posizioni in A.A. • Rilasciati più codici fiscali, a seguito dell’indicazione di dati anagrafici non coincidenti. • Determinazione del CF corretto • Riunificazione delle posizioni (collegamento) Agenzia delle Entrate
Il piano di intervento sui dati – Individuazione dei CF duplicati • Analisi dei duplicati già noti (collegati) • Ricerca dei “simili”, riconducendoli alle classi di errore individuate nell’analisi • Criteri di rilevazione di effettiva duplicazione • Indirizzo molto simile • Solo un soggetto è confermato dal Comune di residenza • Solo un soggetto presenta atti e/o dichiarazioni • I soggetti differiscono solo per il Comune di nascita e uno dei due è un Comune soppresso o aggregato Agenzia delle Entrate
Sperimentazioni • Nel corso della stesura del progetto sono state effettuate sperimentazioni su campioni di dati quale ausilio alla definizione di indici (anche se su base campionaria) sui quali tarare i valori attesi nella misurazione di partenza Agenzia delle Entrate
Sperimentazioni Controllo Indirizzi • Sono stati effettuati interventi di: • Bonifica • Normalizzazione • Riconoscimentodegli indirizzi su un campione di comuni medio-piccoli • Le elaborazioni sono state effettuate da due diverse società italiane Agenzia delle Entrate
Sperimentazioni Controllo indirizzi - Risultati L’indice è dato da rapporto dei normalizzati sul totale del campione Agenzia delle Entrate
Sperimentazioni • Identificazione soggetti duplicati • Sono state effettuate sperimentazioni con Telcordia e APTA system • Entrambe hanno utilizzato sistemi basati su criteri di “matching” e “edit distance” tra le informazioni anagrafiche (codice fiscale,cognome, nome, data e comune di nascita) Agenzia delle Entrate
Sperimentazioni Identificazione soggetti duplicati (segue) • Telcordia ha rilevato un indice di sospetti duplicati del 4,48% • APTA system ha rilevato indici variabili tra 0,15% e 1,5% in dipendenza dei filtri di correlazione utilizzati. Agenzia delle Entrate
Sperimentazioni Identificazione soggetti duplicati (segue) • I diversi filtri sono stati realizzati utilizzando alternativamente tutte o parte delle informazioni: • Filtro A: soggetti aventi Codice Fiscale simile, Anagrafica simile, Indirizzo simile e Località simile (0,15%) • Filtro B: soggetti aventi Codice Fiscale simile, Anagrafica simile, Indirizzo simile o diverso e Località simile o diversa (0,85%) • Filtro C: soggetti aventi Codice Fiscale simile o diverso, Anagrafica simile, Indirizzo simile e Località simile (1,5%) Agenzia delle Entrate
Il piano di intervento sui processi • Revisione dei processi nell’ottica di acquisire i dati alla fonte • Attribuzione CF ai neonati Comuni • Attribuzione CF ai non residenti Consolati • Attribuzione CF extracomunitari Questure • Variazione residenza, dati anagrafici, decesso Comuni Agenzia delle Entrate
Il piano di intervento sui processi • Revisione delle procedure di data entry • Sensibilizzazione degli operatori dei vari organismi abilitati verso la qualità dei dati immessi • Circolari di istruzione • Piani formativi per il personale • Controlli stringenti per evitare l’introduzione di errori • Evitare duplicazioni • Accuratezza e completezza dei dati Agenzia delle Entrate
Il piano di intervento sui processi • Revisione dei flussi di aggiornamento • Le dichiarazioni dei redditi telematiche consentono maggiore tempestività di aggiornamento della residenza e limitano gli errori di data entry • Verranno acquisite telematicamente anche le dichiarazioni di successione correttezza e tempestività del dato Agenzia delle Entrate
Il monitoraggio del livello di qualità • Implementazione delle informazioni nelle basi dati: chi, quando, cosa, stato • Rilevazione degli indicatori del livello di qualità dei dati sottoposti a trattamento • Rilevazione degli incrementi di qualità ottenuti e loro confronto con quelli attesi • Registrazione e storicizzazione dei risultati • Prodotti di data warehouse Agenzia delle Entrate
Altri domini di intervento • Anagrafe delle persone non fisiche (società, enti, associazioni) • Dichiarazioni annuali e atti • Pagamenti • Informazioni provenienti da Enti Esterni Agenzia delle Entrate