cluster creepers

Dat we ons daar nog mee
kunnen bezig houden.
Looking for cluster creepers
in Dutch treebanks
Liesbeth Augustinus & Frank Van Eynde
CLIN 24 – Leiden, January 17, 2014
INTRODUCTION
• … dat hij het haar gisteren had verteld.
versus
• * … dat hij het had gisteren verteld.
INTRODUCTION
• … dat hij het haar gisteren had verteld.
versus
• * … dat hij het had gisteren verteld.
 In general:
2nd pole impenetrable for nonverbal material
INTRODUCTION
• … dat we ons daar nog mee bezig kunnen houden.
versus
• … dat we ons daar nog mee kunnen bezig houden.
INTRODUCTION
• … dat we ons daar nog mee bezig kunnen houden.
versus
• … dat we ons daar nog mee kunnen bezig houden.
 Exceptions:
cluster creepers
CLUSTER CREEPERS
Typically: separable verb particles
•
•
•
•
… dat hij daarover zal na denken (P)
… dat hij haar hoorde fluit spelen (N)
… dat hij zich daarmee wil bezig houden (Adj)
… dat hij de ballon zag weg vliegen (Adv)
• Cf ANS 1997, Evers 2003
CLUSTER CREEPERS
Typical for spoken (nonstandard) Dutch
• Standard Dutch: * … dat Jan wil een huis kopen.
• West Flemish:
… da Jan wilt een hus kopen.
… that Jan wants to buy a house.
• Cf Haegeman & Van Riemsdijk 1986
INTRODUCTION
Cross-linguistic generalizations
• Cluster creeper hierarchy:
o
o
o
o
+ separable particles
± adverbs, idioms, bare Ns
- indefinite (NP) objects, PPs
- definite (NP) objects
• Cf Wurmbrand 2005
INTRODUCTION
ANS 1997:
• SVPs: no real cluster creepers,
e.g. dat hij haar moet opbellen / op moet bellen
• Split constructions are less preferred, typical for spoken
language (more split constructions in NL than in VL)
• But: difference between SVPs and real cluster creepers is often
hard to make,
cf. koffiedrinken vs champagne drinken
= particle verbs or regular combinations of verb + noun?
• Arbitrary orthographic conventions
GOALS
• Use treebanks to verify syntactic theory
• Frequency information:
Which constructions are theoretically possible vs which
constructions are actually used?
• Classification of creeper types (POS, function)
• Variation within creeper constructions (spoken vs
written, form of main verb)
DATA COLLECTION
Selection of clustering constructions (+ permutations)
• Vfin clusters (with more than one verb)
o
o
o
o
Fin – inf : … dat hij wil koffie drinken
Fin – part: … dat hij heeft koffie gedronken
Fin – inf – part: … dat hij zou hebben koffie gedronken
Fin – inf – inf : … dat hij zou willen koffie drinken
• Vinit, 3 verbs, 2 verbs in cluster
o
o
Fin – inf – part: Hij zou gisteren hebben koffie gedronken
Fin – inf – inf: Hij zal morgen willen koffie drinken
TREEBANKS
CGN treebank
LASSY small
Spoken Dutch
Written Dutch
Stylistic & regional variation
Stylistic variation
conversations vs read texts
NL vs VL
Wikipedia vs legal texts
± 1M tokens
± 1M tokens
130k sentences
65k sentences
Manually corrected
Manually corrected
DIFFICULTIES
Annotations and/or orthography
• No separate tag for ‘clustering verbs’
Extraposition without complementizer tagged similarly to
clustering constructions (vc)
 te infinitives not taken into account
• SVP only tagged separately if it is written as one word
But: root contains an _ if it is a separable verb in LASSY
e.g. plug_in
• Annotation errors, e.g. V_fin > V_init:
dan kan ik uh ik kan 'm in de keuken nergens inpluggen
vrienden. [CGN, fna000573__58]
DIFFICULTIES
False positives
• Corrections:
maar wat wij merkten in Frankrijk was dikwijls dat ge 's middags
soms zeer goede menu's kondt gebr*a allee eten dus hè. [CGN,
fva400295__400]
• Interruptions:
enfin ik weet niet hoe ik het moet uh omschrijven uh. [CGN,
fva400534__85]
• Punctuation
• Coordination of verbs:
Daardoor ontstaat de indruk dat de betrokken ambtenaren de
procedures niet konden of wilden volgen. [LASSY, WR-P-P-I0000000165.p.2.s.2]
RESULTS: examples
• we hebben zo nog ne politieker die ons daar altijd ook doet
aan denken. [CGN, fvc701156__222]
• … aan iedereen die toen de toekomst van dit land , van de
huidige en toekomstige generaties hebben veilig gesteld.
[LASSY, dpc-vhs-000745-nl-sen.p.13.s.3]
• waarbij je dus tegen een computer kunt een uh brief uh
dicteren. [CGN, fnf000059__51]
• dat die nu moet in de Verenigde Staten blijven in Miami bij
de familie … [CGN, fvj600261__9]
RESULTS: frequency (#)
# Cluster
creepers
# Clusters,
main verb not
in front
# Clustering
constructions
CGN
(spoken)
LASSY
(written)
TOTAL
177
20
197
7 559
8 736
16 295
9 718
11 032
20 750
cluster creepers (and SVPs) as separate words
RESULTS: frequency (%)
CGN
(spoken)
LASSY
(written)
TOTAL
% Cluster
creepers
1,82
0,18
0,95
% Clustering
constructions
100
100
100
cluster creepers (and SVPs) as separate words
RESULTS: frequency (%)
CGN
(spoken)
LASSY
(written)
TOTAL
% Cluster
creepers
2,3
0,23
1,21
% Clusters,
main verb not
in front
100
100
100
cluster creepers (and SVPs) as separate words
RESULTS: distribution
written
10%
spoken
(NL)
18%
spoken
(VL)
72%
Spoken vs written
PARTICIPLE
19%
INFINITIVE
81%
Main verb:
infinitive vs participle
RESULTS: classification
Dir
Obj
LD
MOD Prep Pred SVP
Compl Compl
Other TOTAL
Adj
0
0
12
0
21
11
0
44
Adv
Pron
Prep
N
AP
NP
PP
TOTAL
0
3
0
0
0
16
9
28
2
1
13
0
0
0
7
23
6
3
9
0
2
1
4
37
1
0
34
0
0
0
1
36
0
1
2
0
1
0
2
27
5
0
6
5
0
0
3
30
6
3
1
1
0
3
2
16
20
11
65
6
3
20
28
197
RESULTS: classification
Dir
Obj
LD
MOD Prep Pred SVP
Compl Compl
Other TOTAL
Adj
0
0
12
0
21
11
0
44
Adv
Pron
Prep
N
AP
NP
PP
TOTAL
0
3
0
0
0
16
9
28
2
1
13
0
0
0
7
23
6
3
9
0
2
1
4
37
1
0
34
0
0
0
1
36
0
1
2
0
1
0
2
27
5
0
6
5
0
0
3
30
6
3
1
1
0
3
2
16
20
11
65
6
3
20
28
197
RESULTS: separable verbs
Main verb in front Main verb not in front
… ingeplugd moet
hebben
TOTAL
… moet hebben
ingeplugd
# Separable
verbs
385
2518
2903
# Nonseparable
verbs
# TOTAL
1911
6218
8129
2296
8736
11 032
• For LASSY (written)
• Root contains an _ if it is a separable verb, e.g. plug_in
RESULTS: separable verbs
Main verb in front Main verb not in front
… ingeplugd moet
hebben
TOTAL
… moet hebben
ingeplugd
# Separable
verbs
385
2518
cluster creepers
2903
# Nonseparable
verbs
# TOTAL
1911
6218
8129
2296
8736
11 032
• For LASSY (written)
• Root contains an _ if it is a separable verb, e.g. plug_in
RESULTS: separable verbs
Main verb in front Main verb not in front
… ingeplugd moet
hebben
TOTAL
… moet hebben
ingeplugd
# Separable
verbs
385
2518
cluster creepers
2903
# Nonseparable
verbs
1911
6218
8129
# TOTAL
2296
8736
11 032
• 86,7 % of all separable verbs in clusters in LASSY
• 22,8 % of all clustering constructions in LASSY
• POS: P, Adj, Adv, bare Ns
CONCLUSION
• Cluster creepers = uncommon phenomenon
 verb clustering at second pole is very pervasive
• Prepostional SVPs = typical cluster creepers
• Problematic annotation/orthography of separable verbs
CONCLUSION
Cluster creeper hierarchy:
Differences between spoken and written Dutch
WURMBRAND
2005
WRITTEN
SPOKEN
separable
particles
+
+
+
adverbs, idioms,
bare Ns
±
+
+
indefinite (NP)
objects, PPs
-
±
+
- definite (NP)
objects
-
-
+
FUTURE RESEARCH
• Use query’s for SoNaR (500M tokens)
o
o
o
Large corpus = useful for infrequent phenomena
Unedited written text (e.g. chats, twitter)
Problem: parser errors
• Te infinitives
o
o
Clustering vs extraposition
Problem: “what is a cluster?”
Thanks for your attention!
REFERENCES
• A. Evers. “Verbal Clusters and Cluster Creepers.” In P.A.M. Seuren and
G. Kempen (eds), Verb Constructions in German and Dutch, pp. 43–89.
John Benjamins, Amsterdam/Philadelphia, 2003.
• L. Haegeman and H. van Riemsdijk. “Verb Projection Raising. Scope
and the Typology of Rules Affecting Verbs.” Linguistic Inquiry, 17:417–
466, 1986.
• W. Haeseryn, K. Romijn, G. Geerts, J. de Rooij, and M. van den Toorn.
Algemene Nederlandse Spraakkunst (ANS). Martinus Nijhoff/Wolters
Plantyn, Groningen/Deurne, 2nd edition, 1997.
• S. Wurmbrand. “Verb Clusters, Verb Raising, and Restructuring.” In M.
Everaert and H. van Riemsdijk (eds), The Blackwell Companion to
Syntax, volume V, chapter 75, pp. 229–343. Blackwell, Oxford, 2005.