Dat we ons daar nog mee kunnen bezig houden. Looking for cluster creepers in Dutch treebanks Liesbeth Augustinus & Frank Van Eynde CLIN 24 – Leiden, January 17, 2014 INTRODUCTION • … dat hij het haar gisteren had verteld. versus • * … dat hij het had gisteren verteld. INTRODUCTION • … dat hij het haar gisteren had verteld. versus • * … dat hij het had gisteren verteld. In general: 2nd pole impenetrable for nonverbal material INTRODUCTION • … dat we ons daar nog mee bezig kunnen houden. versus • … dat we ons daar nog mee kunnen bezig houden. INTRODUCTION • … dat we ons daar nog mee bezig kunnen houden. versus • … dat we ons daar nog mee kunnen bezig houden. Exceptions: cluster creepers CLUSTER CREEPERS Typically: separable verb particles • • • • … dat hij daarover zal na denken (P) … dat hij haar hoorde fluit spelen (N) … dat hij zich daarmee wil bezig houden (Adj) … dat hij de ballon zag weg vliegen (Adv) • Cf ANS 1997, Evers 2003 CLUSTER CREEPERS Typical for spoken (nonstandard) Dutch • Standard Dutch: * … dat Jan wil een huis kopen. • West Flemish: … da Jan wilt een hus kopen. … that Jan wants to buy a house. • Cf Haegeman & Van Riemsdijk 1986 INTRODUCTION Cross-linguistic generalizations • Cluster creeper hierarchy: o o o o + separable particles ± adverbs, idioms, bare Ns - indefinite (NP) objects, PPs - definite (NP) objects • Cf Wurmbrand 2005 INTRODUCTION ANS 1997: • SVPs: no real cluster creepers, e.g. dat hij haar moet opbellen / op moet bellen • Split constructions are less preferred, typical for spoken language (more split constructions in NL than in VL) • But: difference between SVPs and real cluster creepers is often hard to make, cf. koffiedrinken vs champagne drinken = particle verbs or regular combinations of verb + noun? • Arbitrary orthographic conventions GOALS • Use treebanks to verify syntactic theory • Frequency information: Which constructions are theoretically possible vs which constructions are actually used? • Classification of creeper types (POS, function) • Variation within creeper constructions (spoken vs written, form of main verb) DATA COLLECTION Selection of clustering constructions (+ permutations) • Vfin clusters (with more than one verb) o o o o Fin – inf : … dat hij wil koffie drinken Fin – part: … dat hij heeft koffie gedronken Fin – inf – part: … dat hij zou hebben koffie gedronken Fin – inf – inf : … dat hij zou willen koffie drinken • Vinit, 3 verbs, 2 verbs in cluster o o Fin – inf – part: Hij zou gisteren hebben koffie gedronken Fin – inf – inf: Hij zal morgen willen koffie drinken TREEBANKS CGN treebank LASSY small Spoken Dutch Written Dutch Stylistic & regional variation Stylistic variation conversations vs read texts NL vs VL Wikipedia vs legal texts ± 1M tokens ± 1M tokens 130k sentences 65k sentences Manually corrected Manually corrected DIFFICULTIES Annotations and/or orthography • No separate tag for ‘clustering verbs’ Extraposition without complementizer tagged similarly to clustering constructions (vc) te infinitives not taken into account • SVP only tagged separately if it is written as one word But: root contains an _ if it is a separable verb in LASSY e.g. plug_in • Annotation errors, e.g. V_fin > V_init: dan kan ik uh ik kan 'm in de keuken nergens inpluggen vrienden. [CGN, fna000573__58] DIFFICULTIES False positives • Corrections: maar wat wij merkten in Frankrijk was dikwijls dat ge 's middags soms zeer goede menu's kondt gebr*a allee eten dus hè. [CGN, fva400295__400] • Interruptions: enfin ik weet niet hoe ik het moet uh omschrijven uh. [CGN, fva400534__85] • Punctuation • Coordination of verbs: Daardoor ontstaat de indruk dat de betrokken ambtenaren de procedures niet konden of wilden volgen. [LASSY, WR-P-P-I0000000165.p.2.s.2] RESULTS: examples • we hebben zo nog ne politieker die ons daar altijd ook doet aan denken. [CGN, fvc701156__222] • … aan iedereen die toen de toekomst van dit land , van de huidige en toekomstige generaties hebben veilig gesteld. [LASSY, dpc-vhs-000745-nl-sen.p.13.s.3] • waarbij je dus tegen een computer kunt een uh brief uh dicteren. [CGN, fnf000059__51] • dat die nu moet in de Verenigde Staten blijven in Miami bij de familie … [CGN, fvj600261__9] RESULTS: frequency (#) # Cluster creepers # Clusters, main verb not in front # Clustering constructions CGN (spoken) LASSY (written) TOTAL 177 20 197 7 559 8 736 16 295 9 718 11 032 20 750 cluster creepers (and SVPs) as separate words RESULTS: frequency (%) CGN (spoken) LASSY (written) TOTAL % Cluster creepers 1,82 0,18 0,95 % Clustering constructions 100 100 100 cluster creepers (and SVPs) as separate words RESULTS: frequency (%) CGN (spoken) LASSY (written) TOTAL % Cluster creepers 2,3 0,23 1,21 % Clusters, main verb not in front 100 100 100 cluster creepers (and SVPs) as separate words RESULTS: distribution written 10% spoken (NL) 18% spoken (VL) 72% Spoken vs written PARTICIPLE 19% INFINITIVE 81% Main verb: infinitive vs participle RESULTS: classification Dir Obj LD MOD Prep Pred SVP Compl Compl Other TOTAL Adj 0 0 12 0 21 11 0 44 Adv Pron Prep N AP NP PP TOTAL 0 3 0 0 0 16 9 28 2 1 13 0 0 0 7 23 6 3 9 0 2 1 4 37 1 0 34 0 0 0 1 36 0 1 2 0 1 0 2 27 5 0 6 5 0 0 3 30 6 3 1 1 0 3 2 16 20 11 65 6 3 20 28 197 RESULTS: classification Dir Obj LD MOD Prep Pred SVP Compl Compl Other TOTAL Adj 0 0 12 0 21 11 0 44 Adv Pron Prep N AP NP PP TOTAL 0 3 0 0 0 16 9 28 2 1 13 0 0 0 7 23 6 3 9 0 2 1 4 37 1 0 34 0 0 0 1 36 0 1 2 0 1 0 2 27 5 0 6 5 0 0 3 30 6 3 1 1 0 3 2 16 20 11 65 6 3 20 28 197 RESULTS: separable verbs Main verb in front Main verb not in front … ingeplugd moet hebben TOTAL … moet hebben ingeplugd # Separable verbs 385 2518 2903 # Nonseparable verbs # TOTAL 1911 6218 8129 2296 8736 11 032 • For LASSY (written) • Root contains an _ if it is a separable verb, e.g. plug_in RESULTS: separable verbs Main verb in front Main verb not in front … ingeplugd moet hebben TOTAL … moet hebben ingeplugd # Separable verbs 385 2518 cluster creepers 2903 # Nonseparable verbs # TOTAL 1911 6218 8129 2296 8736 11 032 • For LASSY (written) • Root contains an _ if it is a separable verb, e.g. plug_in RESULTS: separable verbs Main verb in front Main verb not in front … ingeplugd moet hebben TOTAL … moet hebben ingeplugd # Separable verbs 385 2518 cluster creepers 2903 # Nonseparable verbs 1911 6218 8129 # TOTAL 2296 8736 11 032 • 86,7 % of all separable verbs in clusters in LASSY • 22,8 % of all clustering constructions in LASSY • POS: P, Adj, Adv, bare Ns CONCLUSION • Cluster creepers = uncommon phenomenon verb clustering at second pole is very pervasive • Prepostional SVPs = typical cluster creepers • Problematic annotation/orthography of separable verbs CONCLUSION Cluster creeper hierarchy: Differences between spoken and written Dutch WURMBRAND 2005 WRITTEN SPOKEN separable particles + + + adverbs, idioms, bare Ns ± + + indefinite (NP) objects, PPs - ± + - definite (NP) objects - - + FUTURE RESEARCH • Use query’s for SoNaR (500M tokens) o o o Large corpus = useful for infrequent phenomena Unedited written text (e.g. chats, twitter) Problem: parser errors • Te infinitives o o Clustering vs extraposition Problem: “what is a cluster?” Thanks for your attention! REFERENCES • A. Evers. “Verbal Clusters and Cluster Creepers.” In P.A.M. Seuren and G. Kempen (eds), Verb Constructions in German and Dutch, pp. 43–89. John Benjamins, Amsterdam/Philadelphia, 2003. • L. Haegeman and H. van Riemsdijk. “Verb Projection Raising. Scope and the Typology of Rules Affecting Verbs.” Linguistic Inquiry, 17:417– 466, 1986. • W. Haeseryn, K. Romijn, G. Geerts, J. de Rooij, and M. van den Toorn. Algemene Nederlandse Spraakkunst (ANS). Martinus Nijhoff/Wolters Plantyn, Groningen/Deurne, 2nd edition, 1997. • S. Wurmbrand. “Verb Clusters, Verb Raising, and Restructuring.” In M. Everaert and H. van Riemsdijk (eds), The Blackwell Companion to Syntax, volume V, chapter 75, pp. 229–343. Blackwell, Oxford, 2005.
© Copyright 2024 ExpyDoc