La piattaforma T2K: dal testo alla conoscenza Felice Dell’Orletta ItaliaNLP Lab – www.italianlp.it Istituto di Linguistica Computazionale «A. Zampolli» 16 ottobre 2014 Italian Natural Language Processing Laboratory @ILC Persone Simonetta Montemagni Felice Dell’Orletta Giulia Venturi Andrea Cimino Dominique Brunato ItaliaNLP Lab Obiettivi ◦ sviluppo di tecnologie linguistiche allo scopo di estrarre ed organizzare il contenuto (sia linguistico che di conoscenza) nascosto nei testi Principali linee di ricerca ◦ analisi linguistica automatica dei testi: sviluppo di strumenti multi-lingua per l'analisi linguistica multi-livello del testo costruzione di corpora per l'addestramento e la valutazione di algoritmi basati su metodi di apprendimento automatico sviluppo di metodi per adattare strumenti di NLP a domini specifici e varietà di lingue non canoniche ◦ estrazione di conoscenza: estrazione ed organizzazione di terminologia di dominio annotazione semantica di entità nominate ed entità rilevanti per uno specifico dominio estrazione di relazioni tra le entità estratte studio dei modelli di variazione linguistica: ricostruzione del profilo linguistico dei testi rispetto al dominio, il genere testuale ed il registro; studio delle variazioni dialettali e sociolinguistiche ◦ prototipi software LinguA: linguistic annotation pipeline. Catena di analisi linguistica in linea con lo stato dell'arte che combina sia sistemi a regole che algoritmi basati sull'apprendimento automatico Text-to-Knowledge (T2K). Piattaforma software per l'estrazione e organizzazione della conoscenza linguistica e di dominio dai testi READ-IT: Assessing Readability of italian Text. READ-IT è il primo sistema avanzato per l'analisi della leggibilità dei testi scritti in lingua italiana Le tecnologie del linguaggio: perché? Non tutti guardano le cose allo stesso modo Le tecnologie del linguaggio: cosa sono? Sistemi in grado di accedere al contenuto informativo dei testi attraverso l’elaborazione automatica del linguaggio (Natural Language Processing) Un ‘ponte’ tra il testo e il contenuto • Conoscenza linguistica • morfo-sintattico, sintattico, semantico-lessicale • Conoscenza di dominio ItaliaNLP Lab: tecnologie del linguaggio L’accesso alla struttura linguistica Profilo linguistico di un testo Estrazione di relazioni semantiche Estrazione di entità di dominio rilevanti Estrazione di espressioni temporali Riconoscimento del genere testuale Organizzazione e rappresentazione della conoscenza Valutazione della leggibilità di un testo Identificazione della lingua madre Monitoraggio delle variazioni tra diversi usi linguistici L’accesso al contenuto Estrazioni di entità nominate Le tecnologie del linguaggio per … L’accesso alla struttura linguistica L’accesso al contenuto Costruzione di mappe concettuali dai testi Le tecnologie del linguaggio per … L’accesso alla struttura linguistica Analisi e verifica delle caratteristiche linguistiche dei testi L’accesso al contenuto Costruzione di mappe concettuali dai testi LinguA: Linguistic Annotation pipeline Catena di analisi linguistica ◦ Sviluppata da ILC e Università di Pisa ◦ http://www.italianlp.it/demo/linguistic-annotation-tool/ READ-IT: Assessing Readability of Italian Texts READ–IT combina caratteristiche tradizionali estratte dal testo con informazioni morfosintattiche e sintattiche. READ–IT valuta la leggibilità sia rispetto all’intero documento che alle singole frasi, supportando la semplificazione del testo rispetto allo specifico audience obiettivo. www.italianlp.it/demo/ Monitoraggio delle caratteristiche linguistiche di collezioni di testi Studio dei fattori che rendono un testo complesso Modelli della comprensione linguistica Valutazione dell’efficacia comunicativa di testi nella comunicazione • Insegnante-studente (Progetto CNR “Migrazioni”) • Amministratore-Cittadino (Osservatorio per la redazione di atti amministrativi – Crusca – ITTIG-CNR) • Operatore di Call Center-utente finale (collaborazione con Vodafone) • Medico-Paziente (progetto SUITHEART Progetto Italiano “Istituto Toscano Tumori”) • Autore editoria scolastica-studenti (progetto Regione Toscana iSLe, in corso) READ-IT: assessing readability of Italian texts with a view to text simplification. Dell’Orletta F., Montemagni S., Venturi G. In Proceedings of SLPAT 2011 , PA, USA. From Text to Knowledge:T2K T2K combina una batteria di tool NLP, tecniche di analisi statistica e di machine learning, allo scopo di produrre una rappresentazione strutturata dell’informazione estratta a partire da documenti non strutturati. www.italianlp.it/demo T2K system Linguistic pre-processing Linguistic Analysis Tools Linguistic Profiling Annotated corpus Knowledge graph Knowledge extraction Information Extraction Knowledge Graph Tools Tools Domain-specif ic Entities extractor Semantic annotator Index of Content Indexer Named Entity tagger Graph creator Relation extractor Graph Visualizer Semantic annotation T2K²: a System for Automatically Extracting and Organizing Knowledge from Texts. Dell’Orletta F., Venturi G., Cimino A., Montemagni S. In Proceedings of LREC 2014, 26-31 May, Reykjavik, Iceland. Estrazione di conoscenza linguistica The linguistically analyzed corpus is used by the linguistic profiling module to investigate the form of a text rather the content The distribution of a wide range of linguistic features (lexical, morpho-syntactic and syntactic) is aimed at ◦ assessing the readability level (Dell’Orletta et al., 2011) ◦ native language identification (Cimino et al., 2012) ◦ determining the text genre (Dell’Orletta et al., 2013) Moreover, they can be used to refine the construction of the corpus ◦ In terms of homogeneity and representativeness of a given domain Estrazione di informazione di dominio The IE tools allow extracting ◦ domain-specific entities (Bonin et al. 2010) e.g. nominal terminology, verbs (both singleand multi-word expressions) ◦ Named entities i.e. Person, Location, Organization and Geopolitical ◦ relations between the extracted entities taxonomical e.g. health research, international research, cancer research or research projects, research infrastructure co-occurence within the same context and similarity on the basis of shared contexts They result in ◦ multi-dimensional knowledge representation graph ◦ document collection index and semantic annotation Catena di analisi linguistica Catena di analisi linguistica • Segmentazione in frasi e tokenizzazione (ovvero segmentazione del testo in parole ortografiche o tokens) • Annotazione morfo-sintattica – a ogni token del testo viene associata informazione relativa alla categoria grammaticale che la parola ha nel contesto specifico e il relativo lemma • Annotazione sintattica a dipendenze – analisi della struttura sintattica della frase in termini di relazioni di dipendenza (es. soggetto, oggetto, etc.) text Sentence Splitter Tokenizer Morphological analyzer PoS Tagger Dependency parser Annotazione linguistica automatica: requisiti di base robustezza nel trattare input mal formato o non conforme alle regole generali della lingua italiana accuratezza dei risultati prodotti efficienza nella capacità di gestire ingenti quantità di dati adattabilità a diversi domini, generi testuali, registri linguistici così come a nuove lingue Le “insidie” del linguaggio: alcuni esempi Nome o verbo? La vecchia porta la sbarra Quale senso di interesse? Il tasso di interesse è variabile anche in funzione della moneta di riferimento Ha mostrato molto interesse per la Linguistica Computazionale Ho visto l’uomo sulla collina con il telescopio Chi è sulla collina? Chi ha il telescopio? Annotazione linguistica stocastica Lo stato dell’arte dell’annotazione linguistica è rappresentato da sistemi basati su algoritmi di appredimento automatico ◦ molto efficienti ◦ estremamente accurati nella risoluzione di problemi di classificazione Annotazione linguistica come classificazione statistica • non esiste una metodologia standard per eseguire tale trasformazione, dipende dal tipo di compito che dobbiamo affrontare • questa trasformazione è più semplice per compiti che coinvolgono un unico token per volta (ad esempio l’analisi morfo-sintattica) mentre è più complessa in compiti nei quali devono essere identificate delle relazioni tra più elementi della frase come ad esempio l’analisi sintattica. Annotazione linguistica stocastica Indipendentemente dall’algoritmo di apprendimento utilizzato sono richiesti tre ingredienti fondamentali per la creazione del modello statistico: ◦ l’insieme delle categorie linguistiche da assegnare ◦ il corpus di addestramento (ovvero un insieme di esempi preannotati classificati a mano) ◦ un insieme di tratti descrittivi, accuratamente selezionati sulla base del compito di classificazione da svolgere A partire da un corpus di addestramento viene costruito un modello statistico per l’annotazione linguistica del testo. Il modello statistico viene utilizzato in fase di analisi di nuovi testi. Annotazione linguistica stocastica Training step training set features extractor creation of statistical model weighted features Annotation step input text features extractor statistical model scores scoring function F (features) Il classificatore valuta la distribuzione dei tratti all’interno del campione di addestramento per ricavarne un modello matematico che formalizza il contributo di ciascun tratto (o insieme di tratti) rispetto al compito in questione. Il modello viene poi applicato a esempi sconosciuti per assegnare loro la classe più probabile, dato il modello e l’insieme di tratti pertinenti. scoring function: usa sia le “weighted features” sia le “extracted features” per identificare la classificazione più probabile ML nei compiti di annotazione linguistica Task che di solito si affrontano con algoritmi basati sul ML testo Sentence splitter Testo Analizzato Tokenizzatore Analizzatore Morfologico POS Tagger Analizzatore a dipendenze segmenta il testo in frasi segmenta ogni frase in unità ortografiche produce le interpretazioni morfologiche di ciascuna unità ortografica seleziona l’interpretazione morfologica corretta (Part of Speech Tagging) identifica le relazioni sintattiche tra le unità ortografiche della frase (soggetto, oggetto, complemento, ecc) 21 Sentence Splitting Il primo passo dell’analisi linguistica di base è il “sentence splitting”: l’identificazione delle frasi all’interno del testo. Il modulo utilizza algoritmi basati sul ML per la classificazione dei punti in 2 classi: “fine frase” e “abbreviazione” Il danno non poteva essere sottovalutato. Il sig. Rossi decise perciò di chiamare l’avvocato. - Il danno non poteva essere sottovalutato. - Il sig. Rossi decise perciò di chiamare l’avvocato. punto di abbreviazione punto di fine frase 22 Sentence Splitting Feature utilizzate: ◦ Feature Locali: Forma, Lunghezza del token, Presenza di punteggiatura all’interno del token (es Acronimi C.N.R.), Posizione della parola all’interno della frase, Presenza della parola all’interno di una lista di parole che noi consideriamo abbreviazioni ad alta probabilità ◦ Feature Contestuali: Token precedente,Token successivo, Caratteristiche tipografiche della parola successiva (es. inizia con una maiuscola) ◦ Di solito non si usano feature Globali 23 Tokenizzazione • Mediante il processo di “tokenizzazione” il testo viene segmentato in unità ortografiche. • Compito di solito affrontato con approcci a regole (espressioni regolari). 1 Il Il danno non poteva essere sottovalutato ... 2 danno 3 non 4 Poteva 5 essere 6 sottovalutato Criticità - riconoscimento di “multiword” (ad hoc, ex aequo, ecc.) - gestione di unità non lessicali (date, elementi numerici, emoticons, ecc.) 24 Analisi morfologica id 1 2 3 4 5 6 Alle unità ortografiche (token) sono associate tutte le possibili letture morfologiche utilizzando un dizionario delle forme (o formario) forma id Il danno non poteva essere sottovaluta to 1 Il il RD MS 2 danno danno;dare S;V MS;P3IP 3 4 5 6 non poteva essere sottovalutato non potere essere sottovalutare B V V V NULL S3II F MSPR formario forma lemma pos tratti schema di rappresentazione tabellare ”CoNLL” costituito da milioni di forme 25 Analisi morfo-sintattica (POS-tagging) Il PoS Tagging è il processo di disambiguazione morfologica. id forma lemma pos tratti 1 Il il RD MS 2 danno danno;dare S;V MS;P3IP 3 non non B NULL id forma lemma pos tratti 1 Il il RD MS 2 danno danno S MS 3 non non B NULL Criticità - disambiguazione tra sostantivo-aggettivo (es: Il paziente inglese), aggettivoparticipio passato (es: Disegno colorato dal paziente inglese) 26 Part-of-Speech Tagging Nel caso dell’analisi morfo-sintattica (POS-tagging) il compito dell’analisi grammaticale diventa quello di assegnare ad ogni token della frase la giusta classe grammaticale: Sostantivo, Aggettivo, Avverbio, Verbo, Punteggiatura, Articolo, etc Il danno non poteva essere sottovalutato. Sostantivo, Articolo, Aggettivo, Avverbio, Verbo, Punteggiatura, etc 27 27 Part-of-Speech Tagging Il sistema si complica quando dobbiamo determinare anche I tratti morfologici (genere, numero, tempo, modo, etc.) per ogni parola. Tali tratti generano un numero maggiore di classi: Il danno non poteva essere sottovalutato. Articolo-Maschile-Singolare, Articolo-Femminile-Singolare, Articolo-Maschile-Plurale, Articolo-Femminilie-Plurale, etc.. 28 28 Part-of-Speech Tagging Feature utilizzate: ◦ Feature Locali: Forma, Lunghezza del token, Presenza di punteggiatura all’interno del token (es Acronimi C.N.R.), Prefisso, Suffisso, Caratteristiche tipografiche del token ◦ Feature Contestuali: Token precedente,Token successivo, Risultato dell’analisi del token precedente, Possibili classi grammaticali della parola successiva (estratti dal livello di analisi morfologica ambigua) ◦ Di solito non si usano feature Globali 29 Part-of-Speech Tagging: TagSet Tagset utilizzato in EVALITA 2009: definito all’interno di un progetto congiunto tra Dipartimento di Informatica dell’Università di Pisa e l’Istituto di Linguistica Computazionale Tre livelli di POS tags: coarse-grained, fine-grained e morphed tags Tag Descrizione coarse-grain, 14 categorie: A Aggettivo B Avverbio C Congiunzione D Determinante E Preposizione F Punteggiatura I Interiezione N Numerale P Pronome R Articolo S Nome T Pre-Determinante V Verbo X Classe Residua 30 Part-of-Speech Tagging: TagSet fine-grained, 36 categorie: Tag Descrizione A Aggettivo AP Aggettivo Possessivo B Avverbio BN Avverbio di negazione … … S Nome Comune SA Nome Abbreviato SP Nome Proprio … … Vip Verbo Principale Indicativo Presente Vii Verbo Principale Indicativo Imperfetto … … 31 Part-of-Speech Tagging: TagSet morphed tags: 328 categorie: fine-grained + genere, numero, persona, modo, tempo, presenza del clitico. Tag Descrizione Ams Aggettivo Maschile Singolare Afs Aggettivo Femminile Singolare Amp Aggettivo Maschile Plurale Afp Aggettivo Femminile Plurale B Avverbio … … Sms Nome Comune Maschile Singolare Sfs Nome Comune Femminile Singolare … … SP Nome Proprio … … VAip3s … Verbo ausiliare indicativo presente terza persona singolare … 32 Part-of-Speech Tagging valutazione • L’accuratezza del sistema è lo stato dell’arte per l’italiano (Evalita-2009 PoSTagging Task): global data unknown tokens accuracy error rate accuracy error rate 96.34% 3.66% 91.07% 8.93% • Errori più frequenti: Our result -> Correct % Error rate ADJ ->NN 9.8% NN -> ADJ 9.3% V_PP -> ADJ 8.1% Maximum Entropy for Italian Pos Tagging. Dell'Orletta F., Federico M., Lenci A., Montemagni S., Pirrelli V. In: Proceedings of Workshop Evalita 2007. Intelligenza Aritificiale, 4(2), 2007. Embedded System for Pos Tagging. Dell'Orletta F. In: Proceedings of Evalita 2009. Parsing Sintattico a Dipendenze In questa compito di analisi vengono individuate le relazioni sintattiche tra i token della frase ROOT id 1 2 forma Il danno 3 4 5 6 lemma il danno pos RD S tratti MS MS non Non B NULL poteva essere sottovalutato Potere essere sottovalutare V V V S3II F MSPR id 1 2 3 4 5 6 forma Il danno non poteva essere sottovalutato lemma il danno non potere essere sottovalutare sottovalutato danno non poteva essere il pos RD S B V V V tratti MS MS NULL S3II F MSPR head 2 6 6 6 6 0 dep DET SUBJ_PASS NEG MODAL AUX ROOT 34 Dependency Parsing come Problema di Classificazione Esistono diversi metodi per trasformare un compito di analisi sintattica in un compito di classificazione, sicuramente uno dei metodi più famosi è quello proposto da Yamada e Matsumoto nel 2003, chiamato Shift/Reduce parser (o transition-based parser) parser Il compito di analizzare sintatticamente una frase diventa il compito di predire l’azione che il parser deve fare per costruire l’albero sintattico della frase Ad ogni passo dell’analisi il parser usa un classificatore addestrato su una TreeBank (o training corpus) allo scopo di predire quale azione deve compiere dato l’insieme delle feature (locali+contestuali) estratte in quel determinato momento 35 Dependency Parsing come Problema di Classificazione Il parser costruisce l’albero a dipendenza analizzando la frase da sinistra verso destra e compiendo tre azioni: Shift, Right e Left: ◦ Shift: non c’è nessuna relazione tra le due parole target analizzate, l’analisi si muove verso destra: Io vidi una donna con gli occhiali --> io vidi una donna con gli occhiali ◦ Right: esiste una relazione tra le due parole, il nodo sinistro è considerato dipendente del nodo testa a destra Io vidi una donna con gli occhiali --> io vidi donna con gli occhiali una 36 Dependency Parsing come Problema di Classificazione ◦ Left: esiste una relazione tra le due parole, il nodo sinistro è considerato testa del nodo dipendente a desta io vidi donna con gli occhiali -- > io vidi con gli occhiali una donna una L’algoritmo va avanti fino a quando non è stato completato l’albero: sono stati creati tutti i link sintattici 37 Dependency Parsing come Problema di Classificazione A questo punto abbiamo ottenuto un albero sintattico non marcato (gli archi non sono marcati con le relazioni di dipendenza: soggetto, oggetto, complemento di tempo, etc). Come possiamo fare per ottenere un albero marcato? Esistono almeno due modi: • attraverso un secondo passo di analisi nel quale si classifica ogni arco con la classe sintattica più probabile (problema di classificazione) • semplicemente aumentando il numero delle azioni del parser, non più solo Shift, Right e Left, ma: Shift, Right_soggetto, Right_oggetto, Right_comp_di_tempo, …, Left_soggetto, Left_oggetto, Left_comp_di_tempo, ….. 38 Dependency Parsing come Problema di Classificazione Quindi il compito di analisi sintattica di una frase diventa un compito di classificazione che può essere diviso in tre fasi: ◦ estrazione delle feature (locali e contestuali) rispetto alle due parole analizzate ◦ stima dell’azione da eseguire attraverso l’algoritmo di apprendimento supervisionato (dato un modello di feature pesate) ◦ esecuzione dell’azione e creazione dell’albero 39 Dependency Parsing: valutazione Metrica ufficiale di valutazione: ◦ LAS (Labeled Accuracy Score): percentuale di dipendenze identificate ed etichettate correttamente Altre metriche di valutazione: ◦ UAS (Unlabeled Accuracy Score): percentuale di dipendenze identificate correttamente ◦ LA (Label Accuracy Score): percentuale di dipendenze etichettate correttamente subj det Le mod tecnologie linguistiche LAS rappresentano 40 … Dependency Parsing: valutazione Metrica ufficiale di valutazione: ◦ LAS (Labeled Accuracy Score): percentuale di dipendenze identificate ed etichettate correttamente Altre metriche di valutazione: ◦ UAS (Unlabeled Accuracy Score): percentuale di dipendenze identificate correttamente ◦ LA (Label Accuracy Score): percentuale di dipendenze etichettate correttamente UAS Le tecnologie linguistiche rappresentano 41 … Dependency Parsing: valutazione Metrica ufficiale di valutazione: ◦ LAS (Labeled Accuracy Score): percentuale di dipendenze identificate ed etichettate correttamente Altre metriche di valutazione: ◦ UAS (Unlabeled Accuracy Score): percentuale di dipendenze identificate correttamente ◦ LA (Label Accuracy Score): percentuale di dipendenze etichettate correttamente det Le subj tecnologie LA mod linguistiche rappresentano 42 … Parsing a Dipendenze: valutazione ISST-TANL Stato dell’arte per l’Italiano: LAS UAS 83.38% 87.71% Errori più frequenti: Dipendenze Recall Precision Error-rate Comp_temp 29.41% 66.67% 0.3% Comp_loc 40.24% 63.46% 1.6% Con 59.70% 61.86% 3.1% Arg 61.80% 66.27% 2.8% Subj_pass 56.52% 76.47% 0.3% Subj 82.86% 80.56% 4.8% Obj 91.93% 80.00% 4.4% Reverse Revision and Linear Tree Combination for Dependency Parsing“. Attardi G., Dell’Orletta F. “ In: NAACL-HLT 2009 , Boulder, Colorado. 43 Le tecnologie linguistiche Annotazione sintattica a dipendenze Conll-2007: 81.3% LAS Evalita 2009: 83.38% LAS Stato dell’arte per l’italiano Annotazione morfo-sintattica Evalita 2009: accuratezza = 96,34% Stato dell’arte per l’italiano Annotazione linguistica stocastica Training step training set features extractor creation of statistical model weighted features Annotation step input text features extractor statistical model scores scoring function F (features) Il classificatore valuta la distribuzione dei tratti all’interno del campione di addestramento per ricavarne un modello matematico che formalizza il contributo di ciascun tratto (o insieme di tratti) rispetto al compito in questione. Il modello viene poi applicato a esempi sconosciuti per assegnare loro la classe più probabile, dato il modello e l’insieme di tratti pertinenti. scoring function: usa sia le “weighted features” sia le “extracted features” per identificare la classificazione più probabile Annotazione linguistica stocastica Training step training set features extractor creation of statistical model weighted features Annotation step input text training set features extractor statistical model scores scoring function F (features) • • Il campione di addestramento e il testo sconosciuto appartengono allo stesso dominio Gli strumenti di annotazione stocastica sono tipicamente addestrati su corpora giornalistici • • Il campione di addestramento e il testo sconosciuto condividono la stessa distribuzione di tratti contestuali e linguistici Sono tratti tipicamente rappresentativi del linguaggio giornalistico Annotazione linguistica stocastica Training step training set features extractor weighted features creation of statistical model Annotation step input text training set features extractor statistical model scores scoring function F (features) • • Il campione di addestramento e il testo sconosciuto appartengono allo stesso dominio Gli strumenti di annotazione stocastica sono tipicamente addestrati su corpora giornalistici • • Buon livello di accuratezza Es.: DeSR parser addestrato e testato sulla PennTreebank Test corpus PennTreebank LAS 86.09% UAS 87.29% Annotazione linguistica stocastica Training step training set features extractor creation of statistical model weighted features Annotation step statistical model input text training set scores scoring function F (features) • • Il campione di addestramento e il testo sconosciuto appartengono a due domini diversi Es.: addestramento su corpora giornalistici e annotazione di articoli biomedici (inglese) • • Diversa distribuzione di tratti contestuali e linguistici Es.: addestramento rispetto a tratti del linguaggio giornalistico e annotazione di testi rappresentativi del linguaggio biomedico Annotazione linguistica stocastica Training step training set features extractor weighted features creation of statistical model Annotation step statistical model input text training set scores scoring function F (features) • Diminuzione di accuratezza LAS: -7.5% Test corpus UAS: -6% (CHEM), 7% (BIO e GENIA) PennTreebank 86.09% 87.29% CHEM 78.50% 81.10% BIO 78.65% 79.97% n/a 80.25% GENIA LAS UAS Annotazione linguistica stocastica Training step features extractor training set weighted features creation of statistical model Annotation step 50,00 it_isst_train it_isst_test it_NatRegLaw 40,00 it_gold_EULaw 30,00 statistical model 20,00 10,00 0,00 Avg sentence length 80 it_isst_train 70 it_isst_test it_NatRegLaw 60 it_gold_EULaw 50 scores 40 30 20 10 0 1 • • Il campione di addestramento e il testo sconosciuto appartengono a due domini diversi Es.: addestramento su corpora giornalistici e annotazione di testi giuridici (italiano) 2 3 4 >=5 scoring function F (features) • • Diminuzione di accuratezza Es.: DeSR and MST parser addestrati sulla ISST-TANL Treebank e testati su un corpus di testi giuridici Test corpus DeSR:LAS MST:LAS ISST-TANL 82.09% 75.85% Testi giuridici 75.85% 74.62% Annotazione linguistica stocastica Training step features extractor training set weighted features creation of statistical model Annotation step 50,00 it_isst_train it_isst_test it_NatRegLaw 40,00 it_gold_EULaw 30,00 statistical model 20,00 10,00 0,00 Avg sentence length 80 it_isst_train 70 it_isst_test it_NatRegLaw 60 it_gold_EULaw 50 scores 40 30 20 10 0 1 2 3 4 >=5 scoring function F (features) • • LAS: -6.24% (DeSR) -5.57% (MST) Diminuzione di accuratezza Es.: DeSR and MST parser addestrati sulla ISST-TANL Treebank e testati su un corpus di testi giuridici Test corpus DeSR:LAS MST:LAS ISST-TANL 82.09% 75.85% Testi giuridici 75.85% 74.62% Domain adaptation: il problema • • Gli strumenti di annotazione linguistica stocastica hanno una notevole diminuzione del livello di accuratezza quando sono testati su testi con caratteristiche diverse da quelle del training Scenario d’uso reale: • • annotazione di testi profondamente diversi dal training Es.: Il problema del Domain Adaptation: la necessità di adattare gli strumenti sviluppati sulla base di un dominio d’origine all’analisi di un nuovo dominio target •Barbara Plank: http://cst.dk/bplank/proefschrift/thesis-bplank.pdf •David McClosky: http://nlp.stanford.edu/~mcclosky/papers/dmcc-thesis2010.pdf Self-training per domain adaptation • Algoritmo di self-training basato su ULISSE: algoritmo capace di selezionare da una grande quantità di testi annotati automaticamente le analisi corrette corrispondenti alle frasi più informative • ULISSE associa un punteggio di accuratezza ad ogni frase analizzata sintatticamente e crea un ranking delle frasi analizzate. (Felice Dell’Orletta, Giulia Venturi, Simonetta Montemagni (2011), ULISSE: an Unsupervised Algorithm for Detecting Reliable Dependency Parses (CoNLL 2011)) • Le frasi analizzate vengono unite al training originario del dominio di partenza (giornalistico) • Testato sul dominio biomedico • Felice Dell’Orletta, Giulia Venturi, Simonetta Montemagni (2013), “Unsupervised Linguistically-Driven Reliable Dependency Parses Detection and Self-Training for Adaptation to the Biomedical Domain”, ACL - BioNLP ULISSE (Unsupervised LInguistically-driven Selection of dEpendency parses) Ampio corpus di frasi annotate automaticamente ULISSE crea un modello statistico utilizzando un insieme di caratteristiche linguisticamente motivate estratte dal corpus annotato automaticamente Modello statistico ULISSE (Unsupervised LInguistically-driven Selection of dEpendency parses) Ampio corpus di frasi annotate automaticamente ULISSE crea un modello statistico utilizzando un insieme di caratteristiche linguisticamente motivate estratte dal corpus annotato automaticamente Modello statistico Frasi analizzate appartenenti allo stesso dominio del corpus Modello statistico ULISSE calcola un punteggio di accuratezza associato ad ogni albero a dipendenza per ogni frase analizzata Ranking decrescente di analisi (da corretti a scorretti) Risultati: CHEM e BIO LAS per CHEM LAS per BIO Senza PTB in addestramento Con PTB in addestramento Risultati: CHEM e BIO LAS per CHEM LAS per BIO Senza PTB in addestramento ULISSE–Stp usando in apprendimento solo dati analizzati Con PTB in training automaticamente ottiene migliori risultati che il modello BASE (addestrato solo su PTB) Risultati: Genia UAS per GENIA senza PTB in addestramento UAS per GENIA con PTB in addestramento In tutti i casi, le performance di ULISSE iniziano a decrescere quando un insieme troppo grande di frasi annotate automaticamente viene inserito in fase di addestramento Annotazione del testo e monitoraggio linguistico in T2K The linguistically analyzed corpus is used by the linguistic profiling module to investigate the form of a text rather the content The distribution of a wide range of linguistic features (lexical, morpho-syntactic and syntactic) is aimed at ◦ assessing the readability level (Dell’Orletta et al., 2011) ◦ native language identification (Cimino et al., 2012) ◦ determining the text genre (Dell’Orletta et al., 2013) Moreover, they can be used to refine the construction of the corpus ◦ In terms of homogeneity and representativeness of a given domain Selezione dei parametri di osservazione: analisi lessicale Ripartizione del vocabolario appartenente al VdB rispetto ai repertori di uso FO, AU, AD Rep Narr Suss 2Par RaccFant Giur 0.18 0.38 Rapporto tipo/unità 0.72 0.70 0.68 0.55 Percentuale del vocabolario appartenente al VdB 67.1 71.76 73.57 74.58 100% 90% Ripartizione del vocabolario appartenente al VdB rispetto ai repertori di uso FO, AU, AD 28.93 56.93 35.60 9.53 14.06 13.51 33.95 31.95 51.99 54.54 59.46 Suss 2Par RaccFant 13.86 25.94 80% 31.01 70% 40.02 60% 50% 40.34 41.64 40% 30% 20% 30.73 32.41 Rep Narr 46.12 10% 0% FO AU AD Giur Parametri di osservazione: analisi morfo-sintattica Distribuzione delle categorie morfo-sintattiche 40 35 30 25 Rep Narr Suss 2Par RaccFant Giur 20 15 10 5 0 Agg Avv Cong Det Prep Punt Int Num Pron Art Sost Predet Verb Altro Analisi sintattica: distribuzione dei tipi di dipendenza 25 20 15 10 5 Rep Narr Suss 2Par RaccFant Giur su bj su b nc pu pr ep pr ed j ob g ne od al m m od j od _r el m di s di s t de co nj at co nc co n p it cl x au ar g co m R O O T 0 Analisi sintattica: parametri relativi ai livelli di incassamento 6.00 Altezza massima degli alberi 5.85 5.80 5.72 5.60 5.43 5.40 Rep Narr Suss 2Par RaccFant Giur 5.27 5.20 5.10 4.96 5.00 Hma x=6 4.80 4.60 4.40 Media altezza max alberi Prof. media 90.00 80.00 70.00 Suss 60.00 RaccF ant 1.31 2Par 1.36 Narr 1.36 Rep 1.45 50.00 40.00 1.27 30.00 20.00 10.00 Giur 0.00 1 2 3 4 5 6 7 1.84 8 9 >=10 Rep Narr Suss 2Par RaccFant Giur Profondità delle “catene” di complementi preposizionali HPP =12 Analisi sintattica: parametri relativi alla distribuzione delle teste verbali Media clausole/periodo Giur RaccFant Rep Narr Suss 2Par RaccFant Giur 2.41 2.65 2.67 2.40 3.37 1.64 74.55 56.72 2Par 43.28 77.37 Suss 22.63 62.95 37.05 Narr 65.30 34.70 Rep 65.11 34.89 0.00 20.00 Pre Post Rep 12.28 87.72 Narr 12.30 87.70 Suss 13.03 86.97 2Par 11.60 88.40 RaccFant 5.58 94.42 Giur 11.69 88.31 25.45 40.00 60.00 Principali Subordinate 80.00 100.00 Ordine relativo delle subordinate rispetto alla principale Analisi sintattica: parametri relativi alla distribuzione delle teste verbali Valenza media Grado di “saturazione” delle valenze • “valenza” media verbale • distribuzione dei verbi per “valenza” Rep 2.07 Narr 1.92 45.00 Suss 1.87 40.00 2Par 2.18 35.00 RaccFant 1.77 Rep Narr Suss 2Par RaccFant Giur 30.00 25.00 Giur 1.79 20.00 15.00 10.00 5.00 0.00 0 1 2 3 4 5 >5 T2K: Estrazione di conoscenza di dominio T2K system Linguistic pre-processing Linguistic Analysis Tools Linguistic Profiling Annotated corpus Knowledge graph Knowledge extraction Information Extraction Knowledge Graph Tools Tools Domain-specif ic Entities extractor Semantic annotator Index of Content Indexer Named Entity tagger Graph creator Relation extractor Graph Visualizer Semantic annotation T2K: Estrazione di conoscenza di dominio T2K: Estrazione di conoscenza di dominio Input corpus: collezione di Direttive Europee in materia ambientale T2K: Terminology Extraction T2K usa un approccio multi-livello per l’estrazione dei termini Testo in input Annotazione linguistica Tokenizzazione Analisi morfosintattica (PoS-tagging) Lemmatizzazione Estrazione delle unità terminologiche candidate Filtri linguistici Filtri statistici Lista di Termini candidati ordinati per valori di significatività statistica all’interno del corpus di acquisizione (sono inclusi sia termini sia non-termini) Analisi contrastiva Lista finale di termini per i valori attribuiti dalla funzione di contrasto (filtraggio dei non-termini) Confronto della distribuzione dei candidati nel corpus di acquisizione vs un corpus di riferimento (corpus di contrasto) T2K: Terminology Extraction T2K usa un approccio multi-livello per l’estrazione dei termini Testo in input Annotazione linguistica Tokenizzazione Analisi morfosintattica (PoS-tagging) Lemmatizzazione Estrazione delle unità terminologiche candidate Filtri linguistici Filtri statistici Lista di Termini candidati ordinati per valori di significatività statistica all’interno del corpus di acquisizione (sono inclusi sia termini sia non-termini) Analisi contrastiva Lista finale di termini per i valori attribuiti dalla funzione di contrasto (filtraggio dei non-termini) Confronto della distribuzione dei candidati nel corpus di acquisizione vs un corpus di riferimento (corpus di contrasto) T2K: Terminology Extraction Analisi linguistica fino al Part-Of-Speech tagging e Lemmatizzazione ◦ E.g. Il piano nazionale di riduzione delle emissioni in nessun caso può esonerare un impianto dal rispetto della pertinente normativa comunitaria, compresa la direttiva 96/61/CE (The national emission reduction plan may under no circumstances exempt a plant from the provisions laid down in relevant Community legislation, including inter alia Directive 96/61/EC) Forma Lemma CPoSTag PosTag Forma Tratti morfologici Lemma CPoSTag PosTag Tratti morfologici Il il R RD num=s|gen=m un un R RI num=s|gen=m piano piano S S num=s|gen=m impianto impianto S S num=s|gen=m dal da E EA num=s|gen=m nazionale nazionale A A num=s|gen=n rispetto rispetto S S num=s|gen=m di di E E _ della di E EA num=s|gen=f riduzione riduzione S S num=s|gen=f pertinente pertinente A A num=s|gen=n delle di E EA num=p|gen=f normativa normativa S S num=s|gen=f emissioni emissione S S num=p|gen=f comunitaria comunitario A A num=s|gen=f in in E E _ , , F FF _ nessun nessun D DI num=s|gen=m compresa comprendere V V num=s|mod=p|gen=f caso caso S S num=s|gen=m la il R RD num=s|gen=f direttiva S S num=s|gen=f potere V VM num=s|per=3|mod=i|ten= p direttiva può 96/61/CE. 96/61/CE. S SP _ esonerare esonerare V V mod=f T2K: Terminology Extraction T2K usa un approccio multi-livello per l’estrazione dei termini Testo in input Annotazione linguistica Tokenizzazione Analisi morfosintattica (PoS-tagging) Lemmatizzazione Estrazione delle unità terminologiche candidate Filtri linguistici Filtri statistici Lista di Termini candidati ordinati per valori di significatività statistica all’interno del corpus di acquisizione (sono inclusi sia termini sia non-termini) Analisi contrastiva Lista finale di termini per i valori attribuiti dalla funzione di contrasto (filtraggio dei non-termini) Confronto della distribuzione dei candidati nel corpus di acquisizione vs un corpus di riferimento (corpus di contrasto) Estrazione di unità terminologiche candidate Filtri linguistici ◦ sostantivi (S), es. impianto, direttiva ◦ sequenze di categorie morfosintattiche, quali sostantivo+preposizione+sostantivo (S+E+S), es. riduzione di emissione sostantivo+aggettivo (S+A), es. piano nazionale, normativa comunitaria Forma Lemma CPoSTag PosTag Tratti morfologici Forma Lemma CPoSTag PosTag Tratti morfologici Il il R RD num=s|gen=m un un R RI num=s|gen=m piano piano S S num=s|gen=m impianto impianto S S num=s|gen=m nazionale nazionale A A num=s|gen=n dal da E EA num=s|gen=m di di E E _ rispetto rispetto S S num=s|gen=m riduzione riduzione S S num=s|gen=f della di E EA num=s|gen=f delle di E EA num=p|gen=f pertinente pertinente A A num=s|gen=n emissioni emissione S S num=p|gen=f normativa normativa S S num=s|gen=f in in E E _ comunitaria comunitario A A num=s|gen=f nessun nessun D DI num=s|gen=m , , F FF _ caso caso S S num=s|gen=m compresa comprendere V V num=s|mod=p|gen=f può potere V VM num=s|per=3|mod=i|ten=p la il R RD num=s|gen=f esonerare esonerare V V mod=f direttiva direttiva S S num=s|gen=f 96/61/CE. 96/61/CE. S SP _ T2K: Terminology Extraction T2K usa un approccio multi-livello per l’estrazione dei termini Testo in input Annotazione linguistica Tokenizzazione Analisi morfosintattica (PoS-tagging) Lemmatizzazione Estrazione delle unità terminologiche candidate Filtri linguistici Filtri statistici Lista di Termini candidati ordinati per valori di significatività statistica all’interno del corpus di acquisizione (sono inclusi sia termini sia termini generici) Analisi contrastiva Lista finale di termini per i valori attribuiti dalla funzione di contrasto (filtraggio dei termini generici) Confronto della distribuzione dei candidati nel corpus di acquisizione vs un corpus di riferimento (corpus di contrasto) Estrazione di unità terminologiche candidate • Filtri statistici • C-NC Value (Frantzi & Ananiadou 1999) per determinare la probabilità di un’unità polirematica di essere un termine • vengono eliminati non-termini, es: impianto dal rispetto filtri statistici (ranking) autorità competente piano nazionale riduzione delle emissioni direttiva valore limite di emissione destinatario della decisione limite di emissione sostanza pericolosa caso anno precedente danno ambientale 236.120380272 113.117778156 108.219717591 105.211324357 103.436822534 87.2457638653 86.9062873351 84.8930693328 37.5790064648 23.934467506 37.4660023032 Risultati dei filtri statistici: Termini generici, termini del dominio legale, termini specifici del dominio regolato mischiati insieme T2K: Terminology Extraction T2K usa un approccio multi-livello per l’estrazione dei termini Testo in input Annotazione linguistica Tokenizzazione Analisi morfosintattica (PoS-tagging) Lemmatizzazione Estrazione delle unità terminologiche candidate Filtri linguistici Filtri statistici Lista di Termini candidati ordinati per valori di significatività statistica all’interno del corpus di acquisizione (sono inclusi sia termini sia termini generici) Analisi contrastiva Lista finale di termini per i valori attribuiti dalla funzione di contrasto (filtraggio dei termini generici) Confronto della distribuzione dei candidati nel corpus di acquisizione vs un corpus di riferimento (corpus di contrasto) T2K: applicazione del contrasto Funzione di Contrasto filtri statistici (ranking) autorità competente piano nazionale riduzione delle emissioni direttiva valore limite di emissione destinatario della decisione limite di emissione sostanza pericolosa caso anno precedente danno ambientale 236.120380272 113.117778156 108.219717591 105.211324357 103.436822534 87.2457638653 86.9062873351 84.8930693328 37.5790064648 23.934467506 37.4660023032 Risultato della funzione di Contrasto: I termini del dominio giuridico e quelli generici (o vuoti) vengono separati dai termini dello specifico dominio trattato (ambientale) Contrasta la lista di termini con i termini estratti da un altro dominio (in questo caso un dominio diverso di direttive Europee) Lista finale riduzione delle emissioni valore limite di emissione limite di emissione sostanza pericolosa danno ambientale ………………… autorità competente piano nazionale Direttiva destinatario della decisione caso anno precedente 100 98.5 98.3 84.89 84 30 29 28.45 28.3 27 25 T2K: Estrazione e classificazione di entità nominate (NERC) Estrazione e classificazione di entità nominate (NERC) T2K utilizza algoritmi di apprendimento supervisionato per la risoluzione di questo compito. NERC come compito di classificazione : assegnare (o meglio classificare) ogni token all’interno della frase a una delle possibili classi di output (es 5 classi per l’italiano): PERSONA, LUOGO, ORGANIZZAZIONE, LUOGO GEOPOLITICO, ALTRO Giacomo Leopardi scrisse L’ Infinito a PERSONA PERSONA ALTRO ALTRO ALTRO ALTRO Recanati LUOGO GEOPOLITICO . ALTRO 79 Estrazione e classificazione di entità nominate (NERC) Alcune parole identificano insieme una unica entità nominata, per definire questa proprietà T2K utilizza il formato standard: BIO-format (Begin, Inside, Otside). Il numero di classi aumenta: B-PER, I-PER, B-LOC, I-LOC, B-ORG, I-ORG, B-GPE, I-GPE, O Giacomo Leopardi scrisse L’ Infinito a Recanati . B-PER I-PER O O O O B-GPE O 80 Algoritmo di Apprendimento Supervisionato Il funzionamento di un algoritmo basato sull’apprendimento supervisionato può essere diviso in due fasi: Training step training set features extractor creation of statistical model weighted features Annotation step input text features extractor statistical model scoring function F (features) scores Algoritmo di Apprendimento Supervisionato: addestramento Training step training set features extractor creation of statistical model weighted features training set: corpus di esempi annotati: coppie (input, output) feature: caratteristiche estratte dall’input (training set) Modello statistico: insieme di coppie (feature, peso), dove il peso è stato calcolato dall’algoritmo di apprendimento 82 Algoritmo di Apprendimento Supervisionato: estrazione features Esempio di frase annotata con le entità nominate (frase presente nel training set): (La , (Roma , O) (ha , (vinto , (la , (partita (a , (Milano O) Feature attive per la classe B-ORGANIZZAZIONE B-ORGANIZZAZIONE) O) O) , O) O) , B-GPE) Features Locali: Suffisso=Ro Prefisso=ma Forma=Roma Lunghezza=4 83 Algoritmo di Apprendimento Supervisionato: estrazione features Esempio di frase annotata con le entità nominate (frase presente nel training set): Feature attive per la classe (La , (Roma , O) (ha , (vinto , (la , (partita (a , (Milano O) B-ORGANIZZAZIONE B-ORGANIZZAZIONE) O) O) , O) O) , B-LUOGO) Features Contestuali: Token(-1)=La Token(+1)=ha Token(+2)=vinto … 84 Algoritmo di Apprendimento Supervisionato: estrazione features Esempio di frase annotata con le entità nominate (frase presente nel training set): Feature attive per la classe (La , (Roma , O) (ha , (vinto , (la , (partita (a , (Milano O) B-ORGANIZZAZIONE B-ORGANIZZAZIONE) O) Features Globali: Tipo_Del_documento=Sportivo O) , O) O) , B-LUOGO) 85 Algoritmo di Apprendimento Supervisionato: estrazione features Il processo di estrazione delle feature restituisce per ogni coppia (input, output) la lista delle feature attive in quel contesto per la classe output. Nell’esempio precedente: Features Attive per B-ORG: Suffisso=Ro Prefisso=ma Forma=Roma Lunghezza=4 Token(-1)=La Token(+1)=ha Token(+2)=vinto Tipo_documento=Sport Queste feature si aggiungono a quelle già estratte per la stessa categoria (B-ORG) in altri eventi annotati all’interno del corpus. 86 Algoritmo di Apprendimento Supervisionato Alla fine del processo di estrazione su tutto il corpus, le feature vengono pesate dall’algoritmo di apprendimento automatico. I pesi indicano la “forza” della feature nell’indicare una certa classe come possibile output e possono essere visti come i parametri della funzione obiettivo e come il modello della lingua che il sistema di addestramento crea nella fase di apprendimento. 87 Algoritmo di Apprendimento Supervisionato: analisi weighted features Annotation step input text features extractor statistical model scores T2K: NERC Input corpus: collezione di Direttive Europee in materia ambientale T2K: Estrazione di relazioni T2K: Estrazione di relazioni E.g.: termini in relazione con imaging cerebrale in testi di giurisprudenza penale imaging cerebrale (brain imaging) Input corpus: collezione di sentenze penali italiane nelle quali si fa uso della prova neuroscentifica genetica molecolare (molecular genetics) quadro clinico (medical case) difesa (defense) comportamenti illeciti (illegal behaviours) valutazione (evaluation) nesso causale (causal relationship) colloqui clinici (clinical interviews) apporto tecnico (technical contribution) emergenze psichiatriche (psychiatric emergencies) sfera psichica (psychic sphere) accertamenti psichiatrici (psychiatric inspections) imputata (defendant) T2K: Estrazione di relazioni E.g.: termini in relazione con imaging cerebrale in testi di giurisprudenza imaging cerebrale (brain imaging) penale Input corpus: collezione di sentenze penali italiane nelle quali si fa uso della prova neuroscentifica genetica molecolare (molecular genetics) quadro clinico (medical case) difesa (defense) comportamenti illeciti (illegal behaviours) valutazione (evaluation) nesso causale (causal relationship) colloqui clinici (clinical interviews) apporto tecnico (technical contribution) emergenze psichiatriche (psychiatric emergencies) sfera psichica (psychic sphere) accertamenti psichiatrici (psychiatric inspections) imputata (defendant) Dal testo alla conoscenza: l’approccio generale Processo incrementale di annotazioneacquisizione-annotazione: knowledge acquired from linguistically-annotated texts is projected back onto texts for extra linguistic information to be annotated and further knowledge layers to be extracted Textual content (implicit knowledge) Dynamic content structuring Structured knowledge (explicit knowledge) Linguistic annotation T2K: Annotazione Semantica T2K: Annotazione Semantica La conoscenza estratta (es. termini, entità nominate) viene riproiettata sul corpus Input corpus: collezione di sentenze in materia di responsabilità dello stato La sentenza ritiene azionato, pur in assenza di espressa qualificazione in tal senso nell'atto introduttivo del giudizio, il diritto al risarcimento del danno, ex art. 2043 c.c., per violazione dell'obbligo dello Stato di dare attuazione alle direttive comunitarie che imponevano di remunerare adeguatamente il medico per la frequenza di un corso di specializzazione; considera comprovato, in assenza di contestazioni specifiche, che il C. avesse superato il corso di formazione quadriennale, come da attestazione del 5.11.1992, con frequenza a tempo pieno e senza svolgimento di attività libero-professionale; dichiara inammissibile l'eccezione di prescrizione quinquennale sollevata dall'amministrazione ed accolta dal primo giudice, sul rilievo che era stata formulata, senza le necessarie allegazioni in fatto e diritto, con riferimento all'art. 2948 c.c., n. 4, in termini, quindi, non pertinenti al rapporto giuridico dedotto in giudizio, atteso che non si trattava di rapporto di impiego pubblico (prospettazione su cui si fondava il difetto di giurisdizione ordinaria, eccepito dall'amministrazione in primo grado) e di responsabilità contrattuale; liquida il risarcimento nell'importo di L. 13.000.000 annue (Euro 6.713,93) secondo il parametro fornito dalla L. n. 370 del 1999, art. 1, comma 1 (borsa di studio annuale per i medici ammessi presso le università alle scuole di specializzazione in medicina dall'anno accademico 1983-1984 all'anno accademico 1990-1991, in attuazione di giudicati amministrativi), con l'aggiunta della rivalutazione monetaria e degli interessi legali dalla maturazione del credito, fissata alla data del 5 novembre 1992. T2K: Indicizzazione T2K: Indicizzazione Input corpus: orpus di relazioni sulle eco-mafie della Direzione Nazionale Antimafia La conoscenza estratta (es. termini, entità nominate) viene utilizzata per indicizzare i documenti del corpus T2K: Organizzazione della conoscenza T2K: Organizzazione della conoscenza Input corpus: libri di storia dell’arte Termini rilevanti Persone Giotto Cimabue Giovanni Pisano Simone Martini Arnolfo di Cambio Ambrogio Lorenzetti Cennino Cennini Dante Duccio di Buoninsegna … Luoghi Roma Italia Assisi Siena Firenze Pisa Padova Italia settentrionale Saint-Denis … Organizzazioni Sacro Romano Impero Metropolitan Museum Musée de Cluny Collezione Salini Museo Provinciale … edificio affresco città duomo di Siena arte italiana colonne Giudizio Universale storie di San Francesco arte classica architettura gotico internazionale ciclo di affreschi pulpito del duomo volte a crociera tradizione bizantina basilica superiore … Organizzazione tassonomica architettura architettura longobarda architettura romana architettura romanica architettura greca T2K: Organizzazione della conoscenza T2K: accesso al contenuto Verso la mappa concettuale di GIOTTO T2K: accesso al contenuto Relazioni condivise tra più entità T2K: accesso al contenuto Relazioni condivise tra due entità Con queste premesse fondamentali, Cimabue affronta negli anni Ottanta la decorazione del capocroce della basilica superiore di San Francesco ad Assisi, dove lavorerà di lì a poco il giovane Giotto, impegnato nell’esecuzione delle storie del santo. Text-to-Knowledge (T2K) a lavoro T2K è utilizzato all’interno di numerosi progetti: ◦ Legal Text Mining: building semantic networks to support advanced queries in legal textual corpora (JURNET) ◦ iSLe – intelligent Semantic Liquid eBook ◦ INMOTO: INformation and MObility for Tourism ◦ Analisi di documentazione tecnica, come brevetti e requisiti ◦ Analisi di dati utilizzati in ambito forense ◦ …. Text-to-Knowledge (T2K) Ed ora vediamo T2K all’opera: ◦ www.italianlp.it/demo/t2k-text-to-knowledge
© Copyright 2024 ExpyDoc