ANNo 1 - n. 1 - Aracne editrice

COMUNICAZIONE DIGITALE
  - n. 
Direttore Scientifico
Elisabetta Z
Direttore Responsabile
Paolo P
Comitato editoriale
Massimo D M
Arturo P
Redazione
Mirto Silvio B
Eva C
Cristiana L
Chiara P
Paolo P
Saverio R
Federica S
Francesca V
Segreteria di Redazione
ComIT
Piazza della Cancelleria,  –  Roma
Tel. +    – fax +   
[email protected] – www.icomit.it
Registrazione
Tribunale di Roma
n.  del ..
Comunicazione digitale
Periodico semestrale
del Centro Studi Comunicazione Istituzionale
e Innovazione Tecnologica (ComIT)
Contributi di
Mirto Silvio Busico
Raffaello Palandri
Paolo Pomati
Chiara Proietti
Francesca Regano
Saverio Rubini
Federica Silvestrini
Elisabetta Zuanelli
Copyright © MMXIV
ARACNE editrice S.r.l.
www.aracneeditrice.it
[email protected]
via Raffaele Garofalo, /A–B
 Roma
() 
 ----
 -
I diritti di traduzione, di memorizzazione elettronica,
di riproduzione e di adattamento anche parziale,
con qualsiasi mezzo, sono riservati per tutti i Paesi.
Non sono assolutamente consentite le fotocopie
senza il permesso scritto dell’Editore.
I edizione: febbraio 
Indice
5
Indice
EDITORIALE
9
Elisabetta Zuanelli
Ottimismo digitale?
RICERCA E SVILUPPO
13
Chiara Proietti
Approcci alla ricerca d’informazione: semantic, enterprise
e web clustering search
1. Le origini dell’information retrieval, 13 – 2. Semantic search engine, 16
– 2.1. L’ontologia, 16 – 2.2. Classificazione degli approcci, 22 – 3. Enterprise search engine, 27 – 3.1. Architettura, 28 – 3.2. Motore di ricerca distribuito: il Metasearch, 31 – 3.3. La contestualizzazione e la personalizzazione, 32 – 4. Web clustering search, 35 – Bibliografia generale, 37
39
Francesca Regano
Rom e sinti: tra discriminazione e integrazione.
Un’indagine della percezione in ambiente scolastico
1. Le denominazioni e la storia, 39 – 2. La cultura e le caratteristiche socioeconomiche della popolazione, 42 – 3. Studenti appartenenti a comunità
nomadi nelle sciole di Roma, 45 – 4. Indagine riguardante la percezione
degli insegnanti sull’inserimento degli allievi rom/sinti all’interno delle
strutture scolastiche del territorio romano, 48 – 4.1. Dati anagrafici dei docenti e composizione delle classi, 50 – 4.2. Esperienza professionale dei
docenti, 51 – 4.3. Esperienza professionale con allievi rom/sinti, 52 – 4.4.
5
Indice
6
Formazione professionale dei docenti sulle tematiche legate alla cultura
rom/sinta, 53 – 4.5. Materiali didattici appositi per allievi rom/sinti, 54 –
4.6. Influenza della presenza di allievi rom/sinti nella classe, 55 – 4.7. Profilo
dell’allievo, 59 – 4.8. Conclusioni dell’indagine, 69 – 5. Conclusioni, 70
MERCATI E TENDENZE
73
Saverio Rubini
Accessibilità e usabilità dei siti web
1. Comunicazione digitale nel Web, 73 – 2. Siti web, accessibilità e usabilità, 78 – 3. Prima di tutto l’architettura, 79 – 4. Alcuni degli errori “visibili”, 82 – 5. Mini viaggio tra gli errori “nascosti” (o “non visibili”), 83 – 6.
Chi deve e chi può intervenire, 86 – 7. Per creare siti Internet validi, 87
89
Mirto Silvio Busico
Che cos’è l’open source?
1. Definizioni, 89 – 2. Un diverso modello economico, 92 – 2.1. Software
proprietario, 93 – 2.2. Software open source, 93 – 2.3. Che cosa si paga, 94
– 2.4. Che cosa si sviluppa, 95 – 2.5. La politica dei rilasci, 96 – 3. Prodotti disponibili, 97 – 3.1. Server e cloud, 98 – 3.2. Per servizi individuali, 100
– 4. Valutazioni conclusive, 101
103
Raffaello Palandri
Analisi del sito OpenOffice.org secondo parametri
di interattività
1. Premessa, 103 – 2. L’analisi (2.1-2.34), 105 ss. – 3. Analisi della fruibilità secondo Nielsen (3.1-3.14), 119 ss. – 4. Analisi WCAG/WAI, 122 – 5.
Conclusioni, 125
OPINIONI
127
Federica Silvestrini
La spending review
133
Paolo Pomati
Riprendiamoci la democrazia elettronica!
Indice
FORMAZIONE
139
Redazione
Il Master in Comunicazione digitale e comunicazione
in rete all’Università di Roma Tor Vergata
EVENTI
143
Elisabetta Zuanelli
Innovazione digitale nell’amministrazione pubblica
e risparmio di spesa: un ossimoro tecnologico?
7
editoriale
Ottimismo digitale?
Elisabetta Zuanelli
Era il 2005. Nell’ambito associativo di ComIT (Centro studi Comunicazione istituzionale e Innovazione Tecnologica) nasceva la rivista online Comunicazione digitale e innovazione tecnologica, coeva al
neonato Codice dell’Amministrazione digitale, il CAD, rivisitato nel
2009, che richiedeva alle amministrazioni di adeguarsi al piano di eEurope, nato nel 2000 a Lisbona per rendere competitive mediante
l’ICT le economie dei sistemi paese d’Europa rispetto ai giganti
dell’asse Ovest-Est del mondo.
In quello stesso anno, il 2005, attivavo sulla mia cattedra appena
istituita all’Università di Tor Vergata il corso di Comunicazione digitale. L’intento era quello di sviluppare ricerca e didattica linguisticocomunicativa utile allo sviluppo di programmi digitali, ampliando in
prospettiva tematica interdisciplinare le logiche di sviluppo informatico di contenuti tematici: architetture di conoscenza e di comunicazione per siti, portali, piattaforme e basi di dati inerenti il territorio, i beni
culturali, l’economia, il diritto e via dicendo. E nel 2007 nasceva a Tor
Vergata il Centro di ricerca e sviluppo sull’e-content, (CReSEC)
(www.cresec.com), sulla scorta di un’esperienza in un programma europeo (E-content plus & security), cui partecipavo come valutatore di
progetti.
Lo sforzo per l’avvio delle attività di R&D (master, progetti, relazioni istituzionali) si scontrava e si scontra tuttora in Italia con un approccio solipsistico, con un’assenza di interesse allo sviluppo ICT da
parte delle aziende nel privato e un’allocazione per lo più pari a zero
nel pubblico. Caso fortuito, la realizzazione recente della piattaforma
partecipativa-interattiva www.moltiplicalavita.it (e il relativo volume
10
Elisabetta Zuanelli
per i tipi di Aracne) del 2012, per conto del Ministero della salute,
progetto che ha meritato la medaglia di rappresentanza del Presidente
della Repubblica Giorgio Napolitano.
Il Master in Comunicazione digitale e comunicazione in Rete, attivato nel 2010 dal CReSEC, è giunto alla quarta edizione nella prospettiva di formazione operativa interdisciplinare e aspira a sviluppi inediti di tipo progettuale come nella realizzazione sperimentale del sito sul
cloud computing (www.cresec.com/cloud) a opera dei partecipanti e
dei docenti del Master.
In questi anni, temi di facile e oscuro consumismo verbale quali
l’economia della conoscenza, l’innovazione tecnologica, i servizi digitali,
l’e-government, l’amministrazione digitale, l’agenda digitale sono stati
diffusi e rimaneggiati nel dibattito giornalistico e istituzionale senza una
reale incidenza nella visione e nello sviluppo digitale del Paese.
A distanza di otto anni dalla nascita della Rivista e delle attività di
promozione dei temi in questione, la situazione non è migliorata. Come ho di recente affermato in dibattiti pubblici, il Parlamento non contempla commissioni alla Camera e al Senato che si occupino di norme
e mercati inerenti l’economia digitale, che pure impegna nei bilanci
dello stato quote consistenti di spesa pubblica e investimenti.
È difficile parlare di economia digitale, se non per constatare che
l’Italia è sì un mercato, in particolare nel pubblico, nel quale operano i
giganti dell’ICT; ma questi non investono in R&D nel nostro Paese,
pur beneficiando in larga misura della citata spesa informatica.
L’innovazione digitale nei vari ambiti di studio, ricerca e sviluppo
necessita di investimenti, possibilmente dal privato, di programmi e di
gare finalizzate con chiarezza, realmente aperte a tutti. La pletora di
piccole e medie imprese di “informatica” non accede direttamente al
mercato R&D che è iperburocratizzato, spesso anche a livello europeo.
D’altro canto le gare pubbliche nostrane, anche quando si rivolgono
potenzialmente a tutti, soffrono di capitolati confusi, spesso sovraccarichi di terminologia qualitativa male assortita e di discutibile utilità
per l’efficientamento del sistema.
L’innovazione tecnologica in ICT appare, di conseguenza, una pretesa
nominalistica, posto che per innovazione molti intendono l’upgrading di
macchine e servizi proposti e imposti da chi detiene il mercato.
Ottimismo digitale?
11
La vecchia agenda digitale con la prospettiva di grandi data centre
in soluzione cloud è un esempio di pseudo-innovazione che non tocca
realmente la semplificazione e la gestione efficace dei procedimenti e
dei servizi delle amministrazioni pubbliche e non affronta ancora in
maniera sistemica i rischi di sicurezza dei dati.
Abbiamo inoltre spiegato che, pur tralasciando gli aspetti di interoperabilità dei sistemi e dei formati, il vero problema consiste
nell’architettura e nella relativa omologazione nella classificazione dei
contenuti, oltreché nella disponibilità dei medesimi.
I protocolli elettronici replicano le vecchie logiche di attestazione
dell’avvio di un procedimento, che viene al massimo reingegnerizzato con le stesse modalità dei vecchi iter amministrativi.
Le firme digitali ed elettroniche abbondano senza una visione funzionale del loro utilizzo. I cittadini, infine, non sanno che dovrebbero poter interagire totalmente online con il sistema pubblico e, in ogni caso,
non potrebbero farlo, mancando nel pubblico sviluppi di transazioni/procedimenti online.
Abbonda invece la pletora di siti e portali costosi, inutili, non usabili e non accessibili come ha rilevato la Funzione pubblica nel 2010.
Si è potenziata la spesa per tecnologie scolastiche digitali che, tuttavia,
abbisognano di contenuti appositamente progettati e realizzati per essere usati in multimodalità didattica. L’e-learning ha fatto proliferare
università in via telematica, la cui efficacia didattico-formativa è tutta
da dimostrare, come oggi afferma il Ministero per l’Istruzione,
l’Università e la Ricerca.
Pessimismo digitale? Sì.
Analoghe perplessità suscitano le attività di “comunicazione” e di
“informazione” istituzionale che si rinvengono nei siti delle amministrazioni pubbliche. A tredici anni dalla norma del 2000 la gestione di
servizi comunicativi e della memoria istituzionale non sembrano essere ancora entrate nella consapevolezza delle istituzioni e degli addetti.
Anche se perseverare è inteso come vocazione diabolica nelle azioni
umane, io credo che i piccoli fatti positivi registrati nel tempo e la sfida all’innovazione di servizio e di prodotto tecnologico, nei temi
dell’informazione e della comunicazione istituzionale e digitale giustifichino il nostro rinnovato impegno e la nuova veste editoriale della
12
Elisabetta Zuanelli
rivista Comunicazione digitale, come strumento di amplificazione
specifica dei temi richiamati.
È quanto ci accingiamo a presentare al pubblico della Rete, e del
cartaceo, per i tipi virtuali di Aracne, che ringraziamo per la fiducia e
l’attenzione.
La discussione e le proposte di contributo sono aperte a tutti. E a
tutti va l’augurio di concorrere fiduciosi a una crescita seria
dell’economia della conoscenza e allo sviluppo di nuove professionalità nell’era digitale.
ricerca e sviluppo
Approcci alla ricerca di informazione:
semantic, enterprise e web clustering search
Chiara Proietti
1. Le origini dell’information retrieval
La smisurata crescita di informazione digitale attuale, determinate
le nuove esigenze e realtà comunicative, accresce sempre più il bisogno di tecnologie e strumenti che possano permettere all’utente in Rete di veicolare, recuperare, organizzare le informazioni.
Gli strumenti di ricerca assumono un enorme rilievo in questo mare
di dati e conoscenza e, con essi, gli approcci semantici alla ricerca, affinché questa risulti più efficace e soddisfacente per l’utente.
Queste necessità si rafforzano nell’attuale realtà del Web 2.0, dove
l’utente diviene autore e dove la conoscenza deriva anche dai dati non
strutturati che questi immette in Rete1. Si tratta, in ogni modo, di dati
preziosi che, relati tra loro e in aggiunta a quelli strutturati posseduti,
potrebbero ottimizzare il recupero dell’informazione, riducendo il rumore dell’ambiguità2 e accrescendo la qualità della rilevanza3 dei risultati resi.
La qualità del recupero dell’informazione, e quindi la rilevanza della stessa, è cruciale in molti processi. Molto è cambiato oggi grazie ai
1
L. BACKSTROM e M. GROBELNIK, Dealing with structured and unstructured data
at Facebook, 2011, http://videolectures.net/eswc2011_backstrom_facebook/.
2
L’ambiguità è un fenomeno per il quale una struttura linguistica può denotare diversi concetti e quindi avere più significati. Un sistema IR (Information Retrieval)
avrà dei problemi nella scelta del significato da attribuire al termine utilizzato con
evidenti risvolti problematici nella valutazione della rilevanza.
3
La nozione di rilevanza è basilare nell’information retrieval, in quanto denota il
grado in cui l’informazione recuperata si avvicina alle richieste dell’utente.
14
Chiara Proietti
sistemi di information retrieval, che assumono sempre più valore, anche in considerazione di quanto ancora si potrebbe fare in questo ambito, migliorando l’estrazione dei dati qualitativamente, per rispondere
ad hoc alle esigenze dell’utente più disparate.
Sebbene l’information retrieval richiami alla nostra mente una realtà
attuale, è opportuno essere consapevoli che questo ambito di studi trova
le sue radici nelle origini antichissime dell’esigenza e del bisogno umano
della conservazione dei dati nel tempo e del recupero dell’informazione
necessaria in un futuro. Era un’esigenza avvertita già nei secoli avanti
Cristo, da popoli, come i Sumeri, che, oltre a porre le basi di un sistema
di scrittura, elaborarono metodologie per l’archiviazione e la classificazione dei contenuti, per una più facile individuazione futura della conoscenza necessaria alla ricerca messa in atto4.
La necessità di categorizzare, classificare, identificare gerarchie organizzative o generi, cui ricondurre dei dati, accrebbe con l’invenzione
della stampa e sembrò trovare un ottimale strumento di risoluzione
nell’invenzione del personal computer. Si intravvide con esso la possibilità di un accesso ai dati dinamico, flessibile e con una notevole riduzione degli sforzi da parte dell’utente.
La conservazione e l’accesso a grandi quantità di dati, nonché la
possibilità di manipolazione degli stessi stimolarono ulteriormente gli
studi tecnologico-scientifici, che si posero l’obiettivo di arricchire le
funzionalità di ricerca automatica e di sviluppare metodi di ricerca testuale qualitativamente migliori5. Con l’invenzione del computer il
campo di studi dell’information retrieval gettò le sue fondamenta e
perseguì il suo principale interesse scientifico, ossia lo sviluppo di
nuovi modelli e tecniche di recupero dell’informazione, soprattutto
per il trattamento di grandi collezioni di testo.
L’avvento del World Wide Web6 nel 1996-98 diede impulso a nuove entusiasmanti sfide, in considerazione di una ricerca che divenne
più complessa, in quanto varcò la soglia di una realtà ristretta e confinata, come quella del testo o di una collezione di dati ben definita, per
4
A. SINGHAL, Modern Information Retrieval: A brief overview, Google Inc., 2001,
http://singhal.info/ieee2001.pdf.
5
ibidem
6
ibidem
Approcci alla ricerca di informazione
15
far fronte a una vasta collezione di documenti non controllati ed
estremamente eterogenei. Si trattava di una varietà che poteva registrarsi nei contenuti interni, ossia nella lingua, nel linguaggio utilizzato, nel vocabolario, nel tipo o formato dei dati, nelle metainformazioni esterne, come la reputazione della fonte, la frequenza di
aggiornamento, la qualità, la popolarità dei contenuti e le citazioni. La
grande sfida risiedeva nel trattamento di contenuti non controllati, in
quanto ogni utente poteva inserire contenuti propri senza alcun controllo preventivo a tale pubblicazione, richiedendo alla ricerca una
maggiore flessibilità e attività su una notevole mole di informazione.
Strumento fondamentale dell’information retrieval è divenuto il
motore di ricerca, un’ancora nel mare di una immensa mole di informazione. Dietro l’interfaccia utente, in attesa di un’interrogazione da
elaborare e cui rispondere, c’è un processo di acquisizione dati e di
indicizzazione delle risorse che costituiranno il terreno di ricerca.
È possibile ricondurre le attività di un motore a tre fasi essenziali:
• crawling;
• indicizzazione;
• ricerca.
L’architettura è in realtà estremamente complessa e molteplici sono
i meccanismi e le logiche architetturali, che costituiscono le fondamenta dei motori esistenti. I motori accolgono nel proprio funzionamento le molteplici declinazioni per il retrieval dell’informazione, che
sono in continua ricerca di soluzioni per poter offrire risultati sempre
migliori in termini di qualità e appropriatezza rispetto la richiesta
dell’utente.
In questo articolo affronteremo due degli approcci alla ricerca di informazione, sui quali il campo dell’information retrieval, attualmente,
si sta soffermando con particolare interesse: la semantic e l’enterprise
search. Offriremo inoltre, in una prospettiva di complementarità con
tali sistemi di recupero, una breve panoramica sulla metodologia di
ricerca web cluster, che opera a valle delle soluzioni di recupero menzionate.
16
Chiara Proietti
2. Semantic search engine
L’information retrieval trova importanti sviluppi nel contesto del
web semantico con diversi approcci al semantic search. Si sfrutta, in
tale ambito, la modellizzazione della conoscenza in un dominio, formalizzato mediante un’ontologia, per massimizzare la qualità del risultato reso nella ricerca, in termini di precisione e recall7. Si sostiene
così l’utente, permettendogli di immettere una query che sarà rivalutata attraverso una contestualizzazione in uno specifico ambito di conoscenza, riducendo in tal modo il grado di ambiguità semantica che la
componente linguistica, inevitabilmente intrinseca nell’interrogazione,
possiede.
2.1. L’ontologia
L’ontologia informatica, nella chiara e sintetica definizione che ne
offre Gruber, non è altro che «una esplicita specificazione di una concettualizzazione»8; è, secondo Basili, «un accordo rispetto a concettualizzazioni condivise per modellare domini di conoscenza dipendenti dal determinato contesto a cui afferiscono»9. Gangemi e Gliozzo la
definiscono «un sistema formale, con il fine di rappresentare la cono-
7
In questa analisi definire la conoscenza è un tentativo meno arduo di quanto possa
sembrare, poiché si fa riferimento alla conoscenza interiorizzata dalle macchine per
il trattamento computazionale. È questa l’informazione computabile in una elaborazione di calcolo automatico che prevede il suo stesso definirsi secondo logiche deduttive. Il calcolatore, infatti, sulla base di una serie di informazioni utili, aggregate,
o meglio strutturate, riesce a operare inferenze in modo programmato. Le verità fattuali su cui opera sono generalmente conservate e memorizzate in basi di dati, ma
queste non sono sufficienti al salto inferenziale che produce realmente conoscenza.
Sono le basi di conoscenza che includono non solo fatti, ma anche le regole per sopra operarvi, che, rispettate, abilitano e realizzano il processo deduttivo.
8
Th.R. GRUBER, “A translation approach to portable ontology specifications”, in
Knowledge acquisition, 5.2 (1993), pp. 199-220.
9
R. BASILI, “Ontologie nel Semantic Web: tra ingegneria della conoscenza, linguaggio e filosofia”, in Comunicazione e innovazione digitale, 1 (2007), Editoriale
scientifica, Napoli, pp.15-30.
Approcci alla ricerca di informazione
17
scenza di un dominio specifico, per un determinato obiettivo
all’interno di un sistema informativo»10.
La modellizzazione e lo sviluppo di una ontologia avviene in molteplici modalità. Generalmente si può affermare che più alto è il grado
di complessità della formalizzazione, più elevato è il grado di precisione che si ottiene nella rappresentazione del dominio coinvolto.
Inoltre, più precisa è per uno specifico dominio, minore sarà la sua
copertura e la sua riusabilità11; ancora, minore la sua capacità di rappresentare più modelli di conoscenza e minore la sua possibilità di essere riutilizzata per applicazioni attinenti ad altri domini. Si tende, in
ogni modo, a perseguire la massima chiarezza concettuale, negoziabilità semantica e contestualizzazione.
L’ontologia si compone di12:
• classi, o costanti predicative unarie;
• istanze, o costanti individuali (individuals);
• relazioni, dette anche proprietà o attributi;
• assiomi sulle classi, altrimenti detti vincoli, che sfruttano generalmente gli operatori logici.
Per esempio, possiamo definire un’ontologia di dominio: una classe
“Vino”; con istanze quali “vino rosso”, “vino bianco”, “enoteca”, “viticoltore”. Questa potrà rendere le relazioni tra queste istanze come “il
viticoltore produce il vino rosso”, “l’enoteca vende il vino acquistato
dal viticoltore” e definire vincoli di relazioni con altre classi.
Inoltre l’ontologia giustifica un insieme di annotazioni nei testi,
come nomi, etichette (o tag semantici) di concetti e proprietà o rela10
A. GANGEMI e A.M. GLIOZZO, “Ontologie”, in F. BIANCHINI, A. GLIOZZO, M.
MATTEUZZI (a cura di), Instrumentum vocale: intelligenza artificiale e linguaggio,
Bononia University Press, Bologna, 2008, pp. 287-311.
11
La copertura è uno dei quattro criteri su cui si valuta la qualità di un’ontologia. Si
tratta della quantità di modelli desiderati rappresentabili in un’ontologia. La precisione rappresenta quanti dei modelli rappresentabili in un’ontologia sono effettivamente voluti e progettati. Il dettaglio assiomatico è la misura della quantità di assiomi
presenti per ogni classe dell’ontologia ed è criterio fortemente influente sulla precisione ed espressività della stessa. Infine, la flessibilità è il grado in cui l’ontologia permette di rappresentare punti di vista diversi sulle medesime entità di un dominio.
12
J. F. SOWA, “Logical Structures in the Lexicon”, in J. PUSTEJOVSKY e S. BERGLER
(a cura di), Lexical Semantics and Commonsense Reasoning, Lectures Notes in Artificial Intelligence, 627, Springer-Verlag, Berlin, 1992, pp. 39-60.
18
Chiara Proietti
zioni da esse definite. Sono così associate al contenuto le caratteristiche semantiche e assunzioni implicite per il corretto utilizzo
dell’ontologia, che permettono al sistema computazionale di “ragionare” su tali dati, di operare inferenze e negoziare significati.
La definizione completa di questa formalizzazione di contenuti avviene grazie a specifici linguaggi13 e spesso sfrutta, per ridurre l’incorrere in
errori e il tempo di realizzazione, quelli che Gangemi14 definisce ontology design pattern, ossia schemi concettuali di progettazione ontologica
che utilizzano categorizzazioni già definite per altri domini.
C’è da considerare che l’ontologia è comunque un rigido sistema
matematico di descrizione, che deve sottostare, con i relativi limiti che
ciò comporta, a leggi di rappresentazione proprie di un sistema formale. L’obiettivo è comunque quello che Gangemi e Gliozzo affermano
essere una soddisfacente descrizione, in cui sia possibile avere una
buona contestualizzazione delle entità individuate nelle classi, nei ruoli, nelle proprietà, coerentemente alla situazione/dominio di analisi15.
È comprensibile come lo scopo di tale formalizzazione sia quello di
far coincidere l’ontologia di contenuti con l’ontologia di un sistema
software (cioè l’agente). Si tratta di una conformità (matching) tra il
modello mentale di un utente e i contenuti rappresentati mediante
l’ontologia, che rende i due modelli interoperabili in modo consistente. Si può comprendere ancora di più la problematicità di tale operazione, contestualizzandola nella vastità del Web, dove il grado di im-
13
I linguaggi formali attualmente usati nell’ingegneria ontologica si sono sviluppati
nell’ambito del semantic web e della rappresentazione della conoscenza. Il semantic
web si è evoluto grazie allo XML, che permette la definizione di un qualsiasi linguaggio di annotazione e RDF, nato con lo scopo di definire specifiche di contenuto;
si è mostrato molto flessibile per la rappresentazione di ontologie e basi di conoscenza. Nella knowledge representation si sono sviluppati linguaggi più formali quali il LISP e il Prolog. Dal contatto dei due ambiti si è invece sviluppato OWL, un linguaggio di markup per rappresentare esplicitamente significato e semantica di termini con vocabolari e relazioni tra gli stessi. Esistono varie versioni del linguaggio,
che differiscono molto tra di loro.
14
A. GANGEMI, “Ontology Design Patterns for Semantic Web Content”, in Proceedings of the 4th International Semantic Web Conference (ISWC 2005), Galway 2005 =
Lecture Notes in Computer Science, 3729, Springer-Verlag, Berlin, 2005, pp 262-276.
15
A. GANGEMI e A.M. GLIOZZO, “Ontologie”, cit.
Approcci alla ricerca di informazione
19
prevedibilità rispetto ai processi di progettazione, distribuiti nello spazio e nel tempo, è notevolmente elevato.
L’ontologia è dunque una strutturazione a priori di una conoscenza,
cui garantire una consistenza rispetto agli usi futuri, e cui si chiede, in
un certo qual modo, di superare i limiti del dominio per la quale è stata pensata per rispondere all’ampiezza dell’ambito semantico, tipica di
una ricerca web che non opera su un dominio chiuso.
Tra le applicazioni delle ontologie, è noto il supporto che queste
forniscono per il trattamento automatico delle lingue e, in particolare,
nella corretta interpretazione delle espressioni linguistiche. Se ne può
chiaramente inferire l’apporto all’information retrieval, che opera ancora principalmente tramite l’uso linguistico, in quanto mediante la
descrizione del mondo, che l’ontologia definisce, si ha una delimitazione dell’interpretazione delle parole, delle frasi e dei testi usati.
L’ontologia sembra dunque delinearsi come strumento per il superamento dei limiti semantici, che da sempre l’intelligenza artificiale ha
dovuto affrontare e con cui la stessa rappresentazione della conoscenza deve scontrarsi16. Le ontologie si pongono in una posizione intermedia nella risoluzione di tali problematiche. Infatti, se gli aspetti sintattici della lingua sono ben resi da metodi logici (sistemi di riscrittura
e linguaggi formali), quelli semantici, legati al significato lessicale,
sono costretti ad arenarsi su fenomeni quali l’ambiguità e la variabilità
del lessico.
Gangemi e Gliozzo sottolineano come gli studi di Noam Chomsky
sulle algebre di dati che caratterizzano le lingue17, abbiano rappresentato notevole impulso per la ricerca in quest’ambito, poiché si assiste
all’abbandono della tradizionale grammatica qualitativa o descrittiva
per una più propriamente formale e rigorosa in termini matematici.
Ricondurre i concetti di accettabilità18, grammaticalità, lessico e interpretazione a strutture algebriche si è rivelato un humus fondamentale
16
R. BASILI, “Ontologie nel semantic web…”, cit.
N. CHOMSKY, “Language and nature”, in Mind, 104, 413 (1995), Oxford University Press, pp.1-61.
18
Per accettabilità si intende la capacità di un parlante di riconoscere gli enunciati
che fanno parte della propria lingua, nonché di generarli e comprenderli.
17
20
Chiara Proietti
per gli studi di modellizzazione e trattamento automatico delle lingue
nella prospettiva sintattica.
Si è riusciti pertanto ad affrontare il trattamento computazionale
linguistico, emulando l’umana capacità di discernere l’accettabilità
grammaticale o grammaticalità, ossia il riconoscimento di relazioni
tra parole di una lingua grazie alla loro posizione nell’enunciato, sulla
base di proprietà lessicali e sintagmatiche19.
Il passo successivo è, inevitabilmente, quello di individuare il grado di accettabilità semantica, ovvero superare il mero riconoscimento
di relazioni sintagmatiche tra parole, e affrontare invece
l’interpretazione, cioè la corretta associazione tra le parole e il mondo
che queste descrivono. È nel chiarire ed esplicitare gli aspetti denotativi e connotativi che la ricerca ha una battuta d’arresto ed è qui che
l’ontologia tenta di apportare il suo contributo maggiore.
Le ontologie svolgono una funzione “ponte” che permette il passaggio da informazione a conoscenza. Si pensi che il contenuto di una
interrogazione immessa in un motore di ricerca debba essere innanzitutto tradotto in conoscenza mediante uno sfondo conoscitivo, reso dal
dominio semantico specifico in cui si inserisce. L’informazione deve
dunque modellarsi in una struttura logica, dove si riporta il mondo in
concetti e categorie, che permettono di operare il recupero
dell’informazione da parte dell’utente prima mediante regole grammaticali, poi mediante quelle semantiche, basandosi su un contesto/dominio ben definito, che permette di restringere il senso/significato dell’entità linguistica.
Ciò sembra in parte riconducibile al concetto di dominio semantico
discusso da Strapparava20, cioè un paradigma esplicativo per la risoluzione di fenomeni di ambiguità e variabilità lessicale. Si tratta di una
base di conoscenza lessicale che raggruppa coerentemente i sensi delle
parole e sviluppa, in modo naturale dalle loro relazioni, i significati tra
queste, aprendo un varco alla via percorsa per cogliere la similarità o
19
Si tratta della costituzione interna delle parole, che permette al parlante di segmentare il flusso dell’enunciato, riconoscendo le singole unità con le rispettive proprietà morfologiche e sintattiche (numero, plurale, concordanza).
20
C. STRAPPARAVA, “Semantica”, in F. BIANCHINI, A. GLIOZZO e M. MATTEUZZI (a
cura di), Instrumentum vocale… cit., pp. 257-287.