COMUNICAZIONE DIGITALE - n. Direttore Scientifico Elisabetta Z Direttore Responsabile Paolo P Comitato editoriale Massimo D M Arturo P Redazione Mirto Silvio B Eva C Cristiana L Chiara P Paolo P Saverio R Federica S Francesca V Segreteria di Redazione ComIT Piazza della Cancelleria, – Roma Tel. + – fax + [email protected] – www.icomit.it Registrazione Tribunale di Roma n. del .. Comunicazione digitale Periodico semestrale del Centro Studi Comunicazione Istituzionale e Innovazione Tecnologica (ComIT) Contributi di Mirto Silvio Busico Raffaello Palandri Paolo Pomati Chiara Proietti Francesca Regano Saverio Rubini Federica Silvestrini Elisabetta Zuanelli Copyright © MMXIV ARACNE editrice S.r.l. www.aracneeditrice.it [email protected] via Raffaele Garofalo, /A–B Roma () ---- - I diritti di traduzione, di memorizzazione elettronica, di riproduzione e di adattamento anche parziale, con qualsiasi mezzo, sono riservati per tutti i Paesi. Non sono assolutamente consentite le fotocopie senza il permesso scritto dell’Editore. I edizione: febbraio Indice 5 Indice EDITORIALE 9 Elisabetta Zuanelli Ottimismo digitale? RICERCA E SVILUPPO 13 Chiara Proietti Approcci alla ricerca d’informazione: semantic, enterprise e web clustering search 1. Le origini dell’information retrieval, 13 – 2. Semantic search engine, 16 – 2.1. L’ontologia, 16 – 2.2. Classificazione degli approcci, 22 – 3. Enterprise search engine, 27 – 3.1. Architettura, 28 – 3.2. Motore di ricerca distribuito: il Metasearch, 31 – 3.3. La contestualizzazione e la personalizzazione, 32 – 4. Web clustering search, 35 – Bibliografia generale, 37 39 Francesca Regano Rom e sinti: tra discriminazione e integrazione. Un’indagine della percezione in ambiente scolastico 1. Le denominazioni e la storia, 39 – 2. La cultura e le caratteristiche socioeconomiche della popolazione, 42 – 3. Studenti appartenenti a comunità nomadi nelle sciole di Roma, 45 – 4. Indagine riguardante la percezione degli insegnanti sull’inserimento degli allievi rom/sinti all’interno delle strutture scolastiche del territorio romano, 48 – 4.1. Dati anagrafici dei docenti e composizione delle classi, 50 – 4.2. Esperienza professionale dei docenti, 51 – 4.3. Esperienza professionale con allievi rom/sinti, 52 – 4.4. 5 Indice 6 Formazione professionale dei docenti sulle tematiche legate alla cultura rom/sinta, 53 – 4.5. Materiali didattici appositi per allievi rom/sinti, 54 – 4.6. Influenza della presenza di allievi rom/sinti nella classe, 55 – 4.7. Profilo dell’allievo, 59 – 4.8. Conclusioni dell’indagine, 69 – 5. Conclusioni, 70 MERCATI E TENDENZE 73 Saverio Rubini Accessibilità e usabilità dei siti web 1. Comunicazione digitale nel Web, 73 – 2. Siti web, accessibilità e usabilità, 78 – 3. Prima di tutto l’architettura, 79 – 4. Alcuni degli errori “visibili”, 82 – 5. Mini viaggio tra gli errori “nascosti” (o “non visibili”), 83 – 6. Chi deve e chi può intervenire, 86 – 7. Per creare siti Internet validi, 87 89 Mirto Silvio Busico Che cos’è l’open source? 1. Definizioni, 89 – 2. Un diverso modello economico, 92 – 2.1. Software proprietario, 93 – 2.2. Software open source, 93 – 2.3. Che cosa si paga, 94 – 2.4. Che cosa si sviluppa, 95 – 2.5. La politica dei rilasci, 96 – 3. Prodotti disponibili, 97 – 3.1. Server e cloud, 98 – 3.2. Per servizi individuali, 100 – 4. Valutazioni conclusive, 101 103 Raffaello Palandri Analisi del sito OpenOffice.org secondo parametri di interattività 1. Premessa, 103 – 2. L’analisi (2.1-2.34), 105 ss. – 3. Analisi della fruibilità secondo Nielsen (3.1-3.14), 119 ss. – 4. Analisi WCAG/WAI, 122 – 5. Conclusioni, 125 OPINIONI 127 Federica Silvestrini La spending review 133 Paolo Pomati Riprendiamoci la democrazia elettronica! Indice FORMAZIONE 139 Redazione Il Master in Comunicazione digitale e comunicazione in rete all’Università di Roma Tor Vergata EVENTI 143 Elisabetta Zuanelli Innovazione digitale nell’amministrazione pubblica e risparmio di spesa: un ossimoro tecnologico? 7 editoriale Ottimismo digitale? Elisabetta Zuanelli Era il 2005. Nell’ambito associativo di ComIT (Centro studi Comunicazione istituzionale e Innovazione Tecnologica) nasceva la rivista online Comunicazione digitale e innovazione tecnologica, coeva al neonato Codice dell’Amministrazione digitale, il CAD, rivisitato nel 2009, che richiedeva alle amministrazioni di adeguarsi al piano di eEurope, nato nel 2000 a Lisbona per rendere competitive mediante l’ICT le economie dei sistemi paese d’Europa rispetto ai giganti dell’asse Ovest-Est del mondo. In quello stesso anno, il 2005, attivavo sulla mia cattedra appena istituita all’Università di Tor Vergata il corso di Comunicazione digitale. L’intento era quello di sviluppare ricerca e didattica linguisticocomunicativa utile allo sviluppo di programmi digitali, ampliando in prospettiva tematica interdisciplinare le logiche di sviluppo informatico di contenuti tematici: architetture di conoscenza e di comunicazione per siti, portali, piattaforme e basi di dati inerenti il territorio, i beni culturali, l’economia, il diritto e via dicendo. E nel 2007 nasceva a Tor Vergata il Centro di ricerca e sviluppo sull’e-content, (CReSEC) (www.cresec.com), sulla scorta di un’esperienza in un programma europeo (E-content plus & security), cui partecipavo come valutatore di progetti. Lo sforzo per l’avvio delle attività di R&D (master, progetti, relazioni istituzionali) si scontrava e si scontra tuttora in Italia con un approccio solipsistico, con un’assenza di interesse allo sviluppo ICT da parte delle aziende nel privato e un’allocazione per lo più pari a zero nel pubblico. Caso fortuito, la realizzazione recente della piattaforma partecipativa-interattiva www.moltiplicalavita.it (e il relativo volume 10 Elisabetta Zuanelli per i tipi di Aracne) del 2012, per conto del Ministero della salute, progetto che ha meritato la medaglia di rappresentanza del Presidente della Repubblica Giorgio Napolitano. Il Master in Comunicazione digitale e comunicazione in Rete, attivato nel 2010 dal CReSEC, è giunto alla quarta edizione nella prospettiva di formazione operativa interdisciplinare e aspira a sviluppi inediti di tipo progettuale come nella realizzazione sperimentale del sito sul cloud computing (www.cresec.com/cloud) a opera dei partecipanti e dei docenti del Master. In questi anni, temi di facile e oscuro consumismo verbale quali l’economia della conoscenza, l’innovazione tecnologica, i servizi digitali, l’e-government, l’amministrazione digitale, l’agenda digitale sono stati diffusi e rimaneggiati nel dibattito giornalistico e istituzionale senza una reale incidenza nella visione e nello sviluppo digitale del Paese. A distanza di otto anni dalla nascita della Rivista e delle attività di promozione dei temi in questione, la situazione non è migliorata. Come ho di recente affermato in dibattiti pubblici, il Parlamento non contempla commissioni alla Camera e al Senato che si occupino di norme e mercati inerenti l’economia digitale, che pure impegna nei bilanci dello stato quote consistenti di spesa pubblica e investimenti. È difficile parlare di economia digitale, se non per constatare che l’Italia è sì un mercato, in particolare nel pubblico, nel quale operano i giganti dell’ICT; ma questi non investono in R&D nel nostro Paese, pur beneficiando in larga misura della citata spesa informatica. L’innovazione digitale nei vari ambiti di studio, ricerca e sviluppo necessita di investimenti, possibilmente dal privato, di programmi e di gare finalizzate con chiarezza, realmente aperte a tutti. La pletora di piccole e medie imprese di “informatica” non accede direttamente al mercato R&D che è iperburocratizzato, spesso anche a livello europeo. D’altro canto le gare pubbliche nostrane, anche quando si rivolgono potenzialmente a tutti, soffrono di capitolati confusi, spesso sovraccarichi di terminologia qualitativa male assortita e di discutibile utilità per l’efficientamento del sistema. L’innovazione tecnologica in ICT appare, di conseguenza, una pretesa nominalistica, posto che per innovazione molti intendono l’upgrading di macchine e servizi proposti e imposti da chi detiene il mercato. Ottimismo digitale? 11 La vecchia agenda digitale con la prospettiva di grandi data centre in soluzione cloud è un esempio di pseudo-innovazione che non tocca realmente la semplificazione e la gestione efficace dei procedimenti e dei servizi delle amministrazioni pubbliche e non affronta ancora in maniera sistemica i rischi di sicurezza dei dati. Abbiamo inoltre spiegato che, pur tralasciando gli aspetti di interoperabilità dei sistemi e dei formati, il vero problema consiste nell’architettura e nella relativa omologazione nella classificazione dei contenuti, oltreché nella disponibilità dei medesimi. I protocolli elettronici replicano le vecchie logiche di attestazione dell’avvio di un procedimento, che viene al massimo reingegnerizzato con le stesse modalità dei vecchi iter amministrativi. Le firme digitali ed elettroniche abbondano senza una visione funzionale del loro utilizzo. I cittadini, infine, non sanno che dovrebbero poter interagire totalmente online con il sistema pubblico e, in ogni caso, non potrebbero farlo, mancando nel pubblico sviluppi di transazioni/procedimenti online. Abbonda invece la pletora di siti e portali costosi, inutili, non usabili e non accessibili come ha rilevato la Funzione pubblica nel 2010. Si è potenziata la spesa per tecnologie scolastiche digitali che, tuttavia, abbisognano di contenuti appositamente progettati e realizzati per essere usati in multimodalità didattica. L’e-learning ha fatto proliferare università in via telematica, la cui efficacia didattico-formativa è tutta da dimostrare, come oggi afferma il Ministero per l’Istruzione, l’Università e la Ricerca. Pessimismo digitale? Sì. Analoghe perplessità suscitano le attività di “comunicazione” e di “informazione” istituzionale che si rinvengono nei siti delle amministrazioni pubbliche. A tredici anni dalla norma del 2000 la gestione di servizi comunicativi e della memoria istituzionale non sembrano essere ancora entrate nella consapevolezza delle istituzioni e degli addetti. Anche se perseverare è inteso come vocazione diabolica nelle azioni umane, io credo che i piccoli fatti positivi registrati nel tempo e la sfida all’innovazione di servizio e di prodotto tecnologico, nei temi dell’informazione e della comunicazione istituzionale e digitale giustifichino il nostro rinnovato impegno e la nuova veste editoriale della 12 Elisabetta Zuanelli rivista Comunicazione digitale, come strumento di amplificazione specifica dei temi richiamati. È quanto ci accingiamo a presentare al pubblico della Rete, e del cartaceo, per i tipi virtuali di Aracne, che ringraziamo per la fiducia e l’attenzione. La discussione e le proposte di contributo sono aperte a tutti. E a tutti va l’augurio di concorrere fiduciosi a una crescita seria dell’economia della conoscenza e allo sviluppo di nuove professionalità nell’era digitale. ricerca e sviluppo Approcci alla ricerca di informazione: semantic, enterprise e web clustering search Chiara Proietti 1. Le origini dell’information retrieval La smisurata crescita di informazione digitale attuale, determinate le nuove esigenze e realtà comunicative, accresce sempre più il bisogno di tecnologie e strumenti che possano permettere all’utente in Rete di veicolare, recuperare, organizzare le informazioni. Gli strumenti di ricerca assumono un enorme rilievo in questo mare di dati e conoscenza e, con essi, gli approcci semantici alla ricerca, affinché questa risulti più efficace e soddisfacente per l’utente. Queste necessità si rafforzano nell’attuale realtà del Web 2.0, dove l’utente diviene autore e dove la conoscenza deriva anche dai dati non strutturati che questi immette in Rete1. Si tratta, in ogni modo, di dati preziosi che, relati tra loro e in aggiunta a quelli strutturati posseduti, potrebbero ottimizzare il recupero dell’informazione, riducendo il rumore dell’ambiguità2 e accrescendo la qualità della rilevanza3 dei risultati resi. La qualità del recupero dell’informazione, e quindi la rilevanza della stessa, è cruciale in molti processi. Molto è cambiato oggi grazie ai 1 L. BACKSTROM e M. GROBELNIK, Dealing with structured and unstructured data at Facebook, 2011, http://videolectures.net/eswc2011_backstrom_facebook/. 2 L’ambiguità è un fenomeno per il quale una struttura linguistica può denotare diversi concetti e quindi avere più significati. Un sistema IR (Information Retrieval) avrà dei problemi nella scelta del significato da attribuire al termine utilizzato con evidenti risvolti problematici nella valutazione della rilevanza. 3 La nozione di rilevanza è basilare nell’information retrieval, in quanto denota il grado in cui l’informazione recuperata si avvicina alle richieste dell’utente. 14 Chiara Proietti sistemi di information retrieval, che assumono sempre più valore, anche in considerazione di quanto ancora si potrebbe fare in questo ambito, migliorando l’estrazione dei dati qualitativamente, per rispondere ad hoc alle esigenze dell’utente più disparate. Sebbene l’information retrieval richiami alla nostra mente una realtà attuale, è opportuno essere consapevoli che questo ambito di studi trova le sue radici nelle origini antichissime dell’esigenza e del bisogno umano della conservazione dei dati nel tempo e del recupero dell’informazione necessaria in un futuro. Era un’esigenza avvertita già nei secoli avanti Cristo, da popoli, come i Sumeri, che, oltre a porre le basi di un sistema di scrittura, elaborarono metodologie per l’archiviazione e la classificazione dei contenuti, per una più facile individuazione futura della conoscenza necessaria alla ricerca messa in atto4. La necessità di categorizzare, classificare, identificare gerarchie organizzative o generi, cui ricondurre dei dati, accrebbe con l’invenzione della stampa e sembrò trovare un ottimale strumento di risoluzione nell’invenzione del personal computer. Si intravvide con esso la possibilità di un accesso ai dati dinamico, flessibile e con una notevole riduzione degli sforzi da parte dell’utente. La conservazione e l’accesso a grandi quantità di dati, nonché la possibilità di manipolazione degli stessi stimolarono ulteriormente gli studi tecnologico-scientifici, che si posero l’obiettivo di arricchire le funzionalità di ricerca automatica e di sviluppare metodi di ricerca testuale qualitativamente migliori5. Con l’invenzione del computer il campo di studi dell’information retrieval gettò le sue fondamenta e perseguì il suo principale interesse scientifico, ossia lo sviluppo di nuovi modelli e tecniche di recupero dell’informazione, soprattutto per il trattamento di grandi collezioni di testo. L’avvento del World Wide Web6 nel 1996-98 diede impulso a nuove entusiasmanti sfide, in considerazione di una ricerca che divenne più complessa, in quanto varcò la soglia di una realtà ristretta e confinata, come quella del testo o di una collezione di dati ben definita, per 4 A. SINGHAL, Modern Information Retrieval: A brief overview, Google Inc., 2001, http://singhal.info/ieee2001.pdf. 5 ibidem 6 ibidem Approcci alla ricerca di informazione 15 far fronte a una vasta collezione di documenti non controllati ed estremamente eterogenei. Si trattava di una varietà che poteva registrarsi nei contenuti interni, ossia nella lingua, nel linguaggio utilizzato, nel vocabolario, nel tipo o formato dei dati, nelle metainformazioni esterne, come la reputazione della fonte, la frequenza di aggiornamento, la qualità, la popolarità dei contenuti e le citazioni. La grande sfida risiedeva nel trattamento di contenuti non controllati, in quanto ogni utente poteva inserire contenuti propri senza alcun controllo preventivo a tale pubblicazione, richiedendo alla ricerca una maggiore flessibilità e attività su una notevole mole di informazione. Strumento fondamentale dell’information retrieval è divenuto il motore di ricerca, un’ancora nel mare di una immensa mole di informazione. Dietro l’interfaccia utente, in attesa di un’interrogazione da elaborare e cui rispondere, c’è un processo di acquisizione dati e di indicizzazione delle risorse che costituiranno il terreno di ricerca. È possibile ricondurre le attività di un motore a tre fasi essenziali: • crawling; • indicizzazione; • ricerca. L’architettura è in realtà estremamente complessa e molteplici sono i meccanismi e le logiche architetturali, che costituiscono le fondamenta dei motori esistenti. I motori accolgono nel proprio funzionamento le molteplici declinazioni per il retrieval dell’informazione, che sono in continua ricerca di soluzioni per poter offrire risultati sempre migliori in termini di qualità e appropriatezza rispetto la richiesta dell’utente. In questo articolo affronteremo due degli approcci alla ricerca di informazione, sui quali il campo dell’information retrieval, attualmente, si sta soffermando con particolare interesse: la semantic e l’enterprise search. Offriremo inoltre, in una prospettiva di complementarità con tali sistemi di recupero, una breve panoramica sulla metodologia di ricerca web cluster, che opera a valle delle soluzioni di recupero menzionate. 16 Chiara Proietti 2. Semantic search engine L’information retrieval trova importanti sviluppi nel contesto del web semantico con diversi approcci al semantic search. Si sfrutta, in tale ambito, la modellizzazione della conoscenza in un dominio, formalizzato mediante un’ontologia, per massimizzare la qualità del risultato reso nella ricerca, in termini di precisione e recall7. Si sostiene così l’utente, permettendogli di immettere una query che sarà rivalutata attraverso una contestualizzazione in uno specifico ambito di conoscenza, riducendo in tal modo il grado di ambiguità semantica che la componente linguistica, inevitabilmente intrinseca nell’interrogazione, possiede. 2.1. L’ontologia L’ontologia informatica, nella chiara e sintetica definizione che ne offre Gruber, non è altro che «una esplicita specificazione di una concettualizzazione»8; è, secondo Basili, «un accordo rispetto a concettualizzazioni condivise per modellare domini di conoscenza dipendenti dal determinato contesto a cui afferiscono»9. Gangemi e Gliozzo la definiscono «un sistema formale, con il fine di rappresentare la cono- 7 In questa analisi definire la conoscenza è un tentativo meno arduo di quanto possa sembrare, poiché si fa riferimento alla conoscenza interiorizzata dalle macchine per il trattamento computazionale. È questa l’informazione computabile in una elaborazione di calcolo automatico che prevede il suo stesso definirsi secondo logiche deduttive. Il calcolatore, infatti, sulla base di una serie di informazioni utili, aggregate, o meglio strutturate, riesce a operare inferenze in modo programmato. Le verità fattuali su cui opera sono generalmente conservate e memorizzate in basi di dati, ma queste non sono sufficienti al salto inferenziale che produce realmente conoscenza. Sono le basi di conoscenza che includono non solo fatti, ma anche le regole per sopra operarvi, che, rispettate, abilitano e realizzano il processo deduttivo. 8 Th.R. GRUBER, “A translation approach to portable ontology specifications”, in Knowledge acquisition, 5.2 (1993), pp. 199-220. 9 R. BASILI, “Ontologie nel Semantic Web: tra ingegneria della conoscenza, linguaggio e filosofia”, in Comunicazione e innovazione digitale, 1 (2007), Editoriale scientifica, Napoli, pp.15-30. Approcci alla ricerca di informazione 17 scenza di un dominio specifico, per un determinato obiettivo all’interno di un sistema informativo»10. La modellizzazione e lo sviluppo di una ontologia avviene in molteplici modalità. Generalmente si può affermare che più alto è il grado di complessità della formalizzazione, più elevato è il grado di precisione che si ottiene nella rappresentazione del dominio coinvolto. Inoltre, più precisa è per uno specifico dominio, minore sarà la sua copertura e la sua riusabilità11; ancora, minore la sua capacità di rappresentare più modelli di conoscenza e minore la sua possibilità di essere riutilizzata per applicazioni attinenti ad altri domini. Si tende, in ogni modo, a perseguire la massima chiarezza concettuale, negoziabilità semantica e contestualizzazione. L’ontologia si compone di12: • classi, o costanti predicative unarie; • istanze, o costanti individuali (individuals); • relazioni, dette anche proprietà o attributi; • assiomi sulle classi, altrimenti detti vincoli, che sfruttano generalmente gli operatori logici. Per esempio, possiamo definire un’ontologia di dominio: una classe “Vino”; con istanze quali “vino rosso”, “vino bianco”, “enoteca”, “viticoltore”. Questa potrà rendere le relazioni tra queste istanze come “il viticoltore produce il vino rosso”, “l’enoteca vende il vino acquistato dal viticoltore” e definire vincoli di relazioni con altre classi. Inoltre l’ontologia giustifica un insieme di annotazioni nei testi, come nomi, etichette (o tag semantici) di concetti e proprietà o rela10 A. GANGEMI e A.M. GLIOZZO, “Ontologie”, in F. BIANCHINI, A. GLIOZZO, M. MATTEUZZI (a cura di), Instrumentum vocale: intelligenza artificiale e linguaggio, Bononia University Press, Bologna, 2008, pp. 287-311. 11 La copertura è uno dei quattro criteri su cui si valuta la qualità di un’ontologia. Si tratta della quantità di modelli desiderati rappresentabili in un’ontologia. La precisione rappresenta quanti dei modelli rappresentabili in un’ontologia sono effettivamente voluti e progettati. Il dettaglio assiomatico è la misura della quantità di assiomi presenti per ogni classe dell’ontologia ed è criterio fortemente influente sulla precisione ed espressività della stessa. Infine, la flessibilità è il grado in cui l’ontologia permette di rappresentare punti di vista diversi sulle medesime entità di un dominio. 12 J. F. SOWA, “Logical Structures in the Lexicon”, in J. PUSTEJOVSKY e S. BERGLER (a cura di), Lexical Semantics and Commonsense Reasoning, Lectures Notes in Artificial Intelligence, 627, Springer-Verlag, Berlin, 1992, pp. 39-60. 18 Chiara Proietti zioni da esse definite. Sono così associate al contenuto le caratteristiche semantiche e assunzioni implicite per il corretto utilizzo dell’ontologia, che permettono al sistema computazionale di “ragionare” su tali dati, di operare inferenze e negoziare significati. La definizione completa di questa formalizzazione di contenuti avviene grazie a specifici linguaggi13 e spesso sfrutta, per ridurre l’incorrere in errori e il tempo di realizzazione, quelli che Gangemi14 definisce ontology design pattern, ossia schemi concettuali di progettazione ontologica che utilizzano categorizzazioni già definite per altri domini. C’è da considerare che l’ontologia è comunque un rigido sistema matematico di descrizione, che deve sottostare, con i relativi limiti che ciò comporta, a leggi di rappresentazione proprie di un sistema formale. L’obiettivo è comunque quello che Gangemi e Gliozzo affermano essere una soddisfacente descrizione, in cui sia possibile avere una buona contestualizzazione delle entità individuate nelle classi, nei ruoli, nelle proprietà, coerentemente alla situazione/dominio di analisi15. È comprensibile come lo scopo di tale formalizzazione sia quello di far coincidere l’ontologia di contenuti con l’ontologia di un sistema software (cioè l’agente). Si tratta di una conformità (matching) tra il modello mentale di un utente e i contenuti rappresentati mediante l’ontologia, che rende i due modelli interoperabili in modo consistente. Si può comprendere ancora di più la problematicità di tale operazione, contestualizzandola nella vastità del Web, dove il grado di im- 13 I linguaggi formali attualmente usati nell’ingegneria ontologica si sono sviluppati nell’ambito del semantic web e della rappresentazione della conoscenza. Il semantic web si è evoluto grazie allo XML, che permette la definizione di un qualsiasi linguaggio di annotazione e RDF, nato con lo scopo di definire specifiche di contenuto; si è mostrato molto flessibile per la rappresentazione di ontologie e basi di conoscenza. Nella knowledge representation si sono sviluppati linguaggi più formali quali il LISP e il Prolog. Dal contatto dei due ambiti si è invece sviluppato OWL, un linguaggio di markup per rappresentare esplicitamente significato e semantica di termini con vocabolari e relazioni tra gli stessi. Esistono varie versioni del linguaggio, che differiscono molto tra di loro. 14 A. GANGEMI, “Ontology Design Patterns for Semantic Web Content”, in Proceedings of the 4th International Semantic Web Conference (ISWC 2005), Galway 2005 = Lecture Notes in Computer Science, 3729, Springer-Verlag, Berlin, 2005, pp 262-276. 15 A. GANGEMI e A.M. GLIOZZO, “Ontologie”, cit. Approcci alla ricerca di informazione 19 prevedibilità rispetto ai processi di progettazione, distribuiti nello spazio e nel tempo, è notevolmente elevato. L’ontologia è dunque una strutturazione a priori di una conoscenza, cui garantire una consistenza rispetto agli usi futuri, e cui si chiede, in un certo qual modo, di superare i limiti del dominio per la quale è stata pensata per rispondere all’ampiezza dell’ambito semantico, tipica di una ricerca web che non opera su un dominio chiuso. Tra le applicazioni delle ontologie, è noto il supporto che queste forniscono per il trattamento automatico delle lingue e, in particolare, nella corretta interpretazione delle espressioni linguistiche. Se ne può chiaramente inferire l’apporto all’information retrieval, che opera ancora principalmente tramite l’uso linguistico, in quanto mediante la descrizione del mondo, che l’ontologia definisce, si ha una delimitazione dell’interpretazione delle parole, delle frasi e dei testi usati. L’ontologia sembra dunque delinearsi come strumento per il superamento dei limiti semantici, che da sempre l’intelligenza artificiale ha dovuto affrontare e con cui la stessa rappresentazione della conoscenza deve scontrarsi16. Le ontologie si pongono in una posizione intermedia nella risoluzione di tali problematiche. Infatti, se gli aspetti sintattici della lingua sono ben resi da metodi logici (sistemi di riscrittura e linguaggi formali), quelli semantici, legati al significato lessicale, sono costretti ad arenarsi su fenomeni quali l’ambiguità e la variabilità del lessico. Gangemi e Gliozzo sottolineano come gli studi di Noam Chomsky sulle algebre di dati che caratterizzano le lingue17, abbiano rappresentato notevole impulso per la ricerca in quest’ambito, poiché si assiste all’abbandono della tradizionale grammatica qualitativa o descrittiva per una più propriamente formale e rigorosa in termini matematici. Ricondurre i concetti di accettabilità18, grammaticalità, lessico e interpretazione a strutture algebriche si è rivelato un humus fondamentale 16 R. BASILI, “Ontologie nel semantic web…”, cit. N. CHOMSKY, “Language and nature”, in Mind, 104, 413 (1995), Oxford University Press, pp.1-61. 18 Per accettabilità si intende la capacità di un parlante di riconoscere gli enunciati che fanno parte della propria lingua, nonché di generarli e comprenderli. 17 20 Chiara Proietti per gli studi di modellizzazione e trattamento automatico delle lingue nella prospettiva sintattica. Si è riusciti pertanto ad affrontare il trattamento computazionale linguistico, emulando l’umana capacità di discernere l’accettabilità grammaticale o grammaticalità, ossia il riconoscimento di relazioni tra parole di una lingua grazie alla loro posizione nell’enunciato, sulla base di proprietà lessicali e sintagmatiche19. Il passo successivo è, inevitabilmente, quello di individuare il grado di accettabilità semantica, ovvero superare il mero riconoscimento di relazioni sintagmatiche tra parole, e affrontare invece l’interpretazione, cioè la corretta associazione tra le parole e il mondo che queste descrivono. È nel chiarire ed esplicitare gli aspetti denotativi e connotativi che la ricerca ha una battuta d’arresto ed è qui che l’ontologia tenta di apportare il suo contributo maggiore. Le ontologie svolgono una funzione “ponte” che permette il passaggio da informazione a conoscenza. Si pensi che il contenuto di una interrogazione immessa in un motore di ricerca debba essere innanzitutto tradotto in conoscenza mediante uno sfondo conoscitivo, reso dal dominio semantico specifico in cui si inserisce. L’informazione deve dunque modellarsi in una struttura logica, dove si riporta il mondo in concetti e categorie, che permettono di operare il recupero dell’informazione da parte dell’utente prima mediante regole grammaticali, poi mediante quelle semantiche, basandosi su un contesto/dominio ben definito, che permette di restringere il senso/significato dell’entità linguistica. Ciò sembra in parte riconducibile al concetto di dominio semantico discusso da Strapparava20, cioè un paradigma esplicativo per la risoluzione di fenomeni di ambiguità e variabilità lessicale. Si tratta di una base di conoscenza lessicale che raggruppa coerentemente i sensi delle parole e sviluppa, in modo naturale dalle loro relazioni, i significati tra queste, aprendo un varco alla via percorsa per cogliere la similarità o 19 Si tratta della costituzione interna delle parole, che permette al parlante di segmentare il flusso dell’enunciato, riconoscendo le singole unità con le rispettive proprietà morfologiche e sintattiche (numero, plurale, concordanza). 20 C. STRAPPARAVA, “Semantica”, in F. BIANCHINI, A. GLIOZZO e M. MATTEUZZI (a cura di), Instrumentum vocale… cit., pp. 257-287.
© Copyright 2025 ExpyDoc