Verifica un indirizzo

Come si misura la qualità di un’anagrafica clienti

Senza uno strumento di misura è impossibile pianificare un miglioramento. Ad esempio per perdere peso è necessario avere una bilancia, cioè una misurazione oggettiva del proprio peso. Viceversa guardandosi allo specchio si può avere misurazioni mutevoli a seconda dell’umore, dell’ottimismo o delle condizioni di luce.

Come si misura dunque la qualità dei dati anagrafici contenuti nel proprio database clienti nell’ottica di perseguire l’obiettivo di migliorarla?

I database clienti assolvono al compito di memorizzare le informazioni relative alle persone o aziende che ci interessano con la finalità di rendere disponibili queste informazioni ai processi che ne necessitano.

Esse contengono dunque nomi, ragioni sociali, indirizzi e in genere punti di contatto o codici (come il codice fiscale o la partita IVA).

Come si misura la qualità di un’anagrafica clienti

Alla domanda: “In che stato è la mia anagrafica clienti, come si risponde?”.
È possibile misurare lo stato di qualità, diciamo di salute, della propria anagrafica clienti in base ad alcuni criteri. Tipicamente: la completezza, la correttezza o validità, il livello di duplicazione dei record. 

Per fare ciò occorre misurare tali indicatori, ad esempio:

  • Quanti record nella mia anagrafica sono corretti?
  • Quanti record nella mia anagrafica sono completi?
  • Quanti record nella mia anagrafica sono duplicati?
  • Quanti record nella mia anagrafica sono obsoleti?

Di quali problemi è affetta la mia anagrafica? Come li risolvo?

Non è infrequente nell’esperienza di chi lavora in ambito Data Quality incorrere in analisi che indicano come anche fino al 30% dei record anagrafici di una azienda risultino inutilizzabili (cioè sbagliati, obsoleti o incompleti). Ovviamente il problema reale emerge quando si fa un utilizzo dei dati.

Ad esempio scoprire che le lettere di auguri natalizi, o il catalogo inviato è andato perduto (cioè non è mai arrivato) al 30% dei destinatari potrebbe fare dispiacere al responsabile dell’attività.

In generale una problematica che affligge un’anagrafica è una problematica di informazioni. I dati in essa contenuti possono essere mancanti, inesatti, obsoleti, incompleti o ambigui. Queste condizioni determinano la non disponibilità dell’informazione quando serve. E quindi determinano un problema.

Quando l’anagrafica raggiunge dimensioni significative (circa 100/200mila record) o ha una certa anzianità (ad esempio 10+ anni di vita) i problemi possono cominciare a diventare significativi.

Ma come si individuano questi problemi? E come si risolvono? E quali sono? 

Quali sono i problemi tipici di una anagrafica cliente?

Le anagrafiche clienti contengono nomi (o ragioni sociali, cioè nomi di aziende), indirizzi e punti di contatto. La non adeguatezza dei dati contenuti in alcuni o tutti i record può determinare la sua effettiva indisponibilità nel momento del bisogno, e quindi il problema.

Vediamo alcuni dei problemi tipici:

DATI NON UNIFORMI

Parlando soprattutto della componente indirizzo la non uniformità dei dati è una caratteristica comune. Non è infrequente ad esempio che nel campo LOCALITÀ o COMUNE le informazioni siano stati acquisite in modo libero.
Per cui avremo record che riportano relativamente ad uno specifico comune: “SAN PIETRO IN CARIANO” svariate forme tutte in teoria equivalente a livello di contenuto. Per esempio: S. PIETRO IN CARIANOSAN PIETRO IN C. San P. in CarianoE così via.

Lo stesso fenomeno può avvenire per i diversi campi del database come la Provincia, l’indirizzo, il nome della via. Tale non uniformità genera non pochi problemi a livello di utilizzo del dato, ad esempio rende difficili o complesse le ricerche, invalida le analisi (ad esempio di tipo cubo di datawarehouse) ed in generale è una limitazione di qualità del dato.Questo tipo di problemi nasce spesso dalla modalità di acquisizione del dato, ad esempio dalla digitazione dello stesso cliente/utente via web o social. Ma anche la provenienza del dato da sistemi o fonti diverse con diversi standard qualitativi.

DATI MANCANTI/INCOMPLETI

Molti indirizzi vengono acquisiti o memorizzati con uno specifico obiettivo in mente, ad esempio tramite campagne volte ad acquisire la email o il numero di telefono, mentre si pone scarsa attenzione alla componente indirizzo. Oppure si pone grande attenzione al codice fiscale, per l’emissione di fatture, e si dedica poco controllo agli altri elementi. Salvo poi scoprire che sarebbe utile avere a disposizione anche i dati mancanti.

Questo specifico problema ha ed esempio afflitto molte assicurazioni a seguito del decreto Bersani, che ha imposto l’invio ad ogni assicurato di una lettera annuale riepilogativa. Ne emerse che molte assicurazioni non tenevano in gran conto la qualità degli indirizzi postali dei propri clienti poiché essi erano gestiti principalmente in modalità diretta dai propri agenti.

DATI SBAGLIATI

I dati sbagliati più tipici dipendono dalla modalità di acquisizione dell’indirizzo e sono legati ad esempio:

  • Compilazione da parte dell’utente (ad esempio via Web)
  • Acquisizione dei dati tramite OCR di moduli cartacei
  • Compilazione dei dati da parte di call center (con qualità indeterminabile)
  • Non conoscenza dell’utente stesso del proprio indirizzo (non infrequente)

In tutti questi casi i dati sono affetti da veri e propri errori, i più tipici:

  • Errori di compitazione del nome della località o della strada
  • Errori di attribuzione della strada al comune (nelle vie di confine soprattutto)
  • Errori di attribuzione della provincia o del CAP

Tutti questi errori rendono il dato completamente inutilizzabile sia a fini postali ad esempio, ma anche per effettuare analisi dei dati, report di vendita o ricerche in generale.

DATI OBSOLETI

Per quanto possa sembrare strano i dati nelle anagrafiche “invecchiano” come il vino nelle bottiglie e al contrario del vino difficilmente migliorano nel tempo. I dati più soggetti all’usura del tempo sono:

  • Il CAP: Poste Italiane aggiorna due-tre volte all’anno l’elenco dei CAP per cui un CAP acquisito correttamente ad esempio 5 anni fa la il 3-4% di probabilità di essere sbagliato
  • Il Comune: l’iSTAT pubblica ogni primo gennaio dell’anno l’elenco aggiornato dei comuni italiani. La tendenza piuttosto stabile è che circa 30-40 comuni ne sono affetti ogni anno, a causa di fusioni di diversi comuni dentro uno unico. O la annessione di comuni piccoli attorno alle grandi/medie città.
  • Il nome della strada: esistono all’incirca 1,3 milioni di strade in Italia. C’è un’attività piuttosto continua di cambiamento di nome alle strade da parte dei comuni, o di cambiamento di competenza di strade statali che diventano regionali. In tutti questi casi la strada ha cambiato nome e l’indirizzo, il nome della strada, acquisito l’anno scorso potrebbe non essere più il valore corrente.
  • La provincia: specialmente in Sardegna ultimamente, ma in generale in tutta Italia esistono fenomeni di spostamento di provincia da parte di alcuni comuni.

Dunque ipotizzando di avere qualche problema nella propria anagrafica, o sapendo di averlo. Con quale strumento affrontiamo la misurazione del problema e con quali strumenti la sua soluzione?

Anagrafica clienti

Che cos’è la normalizzazione:

La normalizzazione è un’operazione che si applica ai dati semi-strutturati come quelli che compongono le anagrafiche: nomi, ragioni sociali o indirizzi.

L’operazione di normalizzazione ha lo scopo di acquisire in input un’informazione data in modo libero (cioè potenzialmente contenente errori, informazioni mancanti, abbreviazioni o informazioni ridondanti) e di scontrarla (cioè verificarla) con un database di riferimento.

A seguito di tale operazione ogni elemento fornito in input viene riferito ad un elemento presente nel database di riferimento e viene di conseguenza geocodificato (se parliamo di indirizzi, ovvero ad ogni elemento viene associato un valore unico di testo ed un codice), oppure scartato.

vantaggi di questa operazione, quando applicata agli indirizzi sono:

  • Ogni elemento viene fornito in output nella sua versione ufficiale e corretta. Ad esempio:
    • “V.LE” “VLE” “VIAL” “V.le “ “Viale” sono tradotti in “VIALE”
    • “g.mazzin” “GIUSEPPE M.” “MAZZINI” sono tradotti in “GIUSEPPE MAZZINI”
  • Poiché ogni elemento è stato scontrato con un database di riferimento è certa sia la sua correttezza che la sua esistenza. Ad esempio:
    • “VIA SANDRO PERTINI” a “TORRI DEL BENACO” pur essendo scritta bene (‘) non verrà considerato un valore correttamente normalizzato, poiché tale nome di strada non esiste in quel comune.
  • Poiché ogni elemento è stato scontrato con un database di riferimento contenente informazioni aggiuntive, ogni elemento può essere arricchito di informazioni mancanti o utili. Ad esempio:
    • “VIA VALPOLICELLA 145” “SAN FLORIANO” “VR” è un indirizzo apparentemente completo e utile per alcuni fini. Sottoponendolo a normalizzazione potremo scoprire:
      • (ASSENTE IN INPUT) COMUNE_CORRETTO: “SAN PIETRO IN CARIANO”
      • FRAZIONE_CORRETTA: “SAN FLORIANO”
      • (ASSENTE IN INPUT) CAP: “37029”
      • (ASSENTE IN INPUT) CODICE_ISTAT_COMUNE: “005 – 023 – 076”
      • (ASSENTE IN INPUT) CODICE_CATASTALE:” I109” (NUOVO) “D6DW” (VECCHIO)
      • (ASSENTE IN INPUT) COORD_GEOGRAFICHE:” 45.5092215000 , 10.90343609510 ”
      • (ASSENTE IN INPUT) ZONAEXOMI: ”B1” (ALL’INTERNO DEL COMUNE)
  • Un buon normalizzatore è in grado di intercettare un buon numero di indirizzi affetti da errori più o meno gravi, quali:
  • “DESENZNO DEL GARDA” diventa “DESENZANO DEL GARDA”
  • CAP errati in input vengono corretti
  • Eventuali PROVINCE assenti o errate in input vengono CORRETTE
  • Nomi di strade errati o incompleti vengono corretti:
    • “VIA GINO BARTINI” diventa “VIA MONSIGNOR GINO BARTINI”
    • “STR. STALE 113” diventa” “STRADA STATALE 113”

È evidente quindi come la normalizzazione affronta sia il tema della misurazione della qualità di una qualunque anagrafica, sia il tema della correzione degli errori correggibili automaticamente.

Conclusioni

In conclusione l’approccio iniziale alla misurazione della qualità della propria anagrafica non può che essere quello della sua normalizzazione attraverso uno strumento affidabile.

Infatti a valle della normalizzazione otterremo:

  • L’individuazione di tuti i record che non presentano problemi. (Compresi quelli il cui problema era “lieve” e quindi è stato corretto direttamente in prima elaborazione.In una anagrafica ben tenuta, non vecchia e in generale in media di industria questo tipo di record rappresenta il 95%. PS: tale percentuale include però tutti CAP sbagliati, le provincie sbagliate e tutti i nomi di località e strada che essendo scritti sufficientemente bene hanno potuto essere corretti on-the-fy, tutti i record relativi a località o strade che hanno cambiato nome nel tempo)
  • L’individuazione dei record problematici, dove i problemi per gravità crescente possono essere riassunti in:
    • ERRORI DI LOCALITÀ: si tratta dell’errore più grave, in quanto il non riconoscimento della località impedisce l’attribuzione del CAP e della Provincia per esempio. Si tratta di record non utilizzabili ad alcun scopo che vanno mandati a correzione.
    • ERRORI DI STRADA: si tratta di un errore minore in cui spesso la strada può essere corretta o anche lasciata nel suo stato corrente. L’idea è che il postino potrebbe comunque riconoscerla mentre il software non ci è riuscito.
    • ERRORI DI AMBIGUITÀ: un errore comune che avviene quando l’indirizzo (ad esempio “VIA GARIBALDI”) è inserito in un contesto in cui esistono più match per esso (ad esempi “VIA ANITA GARIBALDI” e “VIA GIUSEPPE GARIBALDI”. Si tratta di record che vanno mandati a correzione.
    • ERRORI DI NUMERO CIVICO: Si tratta di errori molto specifici relativi a contesti in cui il numero civico è rilevante per determinare il CAP. Tale tipo di errore influenza la recapitabilità in caso di utilizzo di servizi come la Posta Massiva.

Con tale risultato in mano possiamo sia misurare la qualità corrente dell’anagrafica, conoscendo il numero di record preciso affetto dagli specifici problemi elencati, sia avviare un processo di miglioramento che prevederà l’invio dei record affetti da problemi in correzione.

Man mano che la attività di correzione producono nuove versioni dell’anagrafica è possibile rimisurare la qualità, cioè rinomalizzare per implementare il ciclo di miglioramento e di controllo della qualità della propria anagrafica.

Oxygen Icon Box

Street Master Italia SRL
Via Gino Bozzini 3/E
37135 - Verona

Oxygen Icon Box

supporto@streetmaster.it

Oxygen Icon Box

+39 045 8947375

Scarica AppFAQ
© 2024 Street Master. All rights reserved | P.IVA 04375530237 | Privacy e Cookies
envelopephone-handsetmap-markercrossmenu
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram