know-how
innovation
CLEF 2002 Overview of Results Martin Braschler Eurospider Information Technology AG 8006 Zürich, Switzerland
[email protected] solution
Outline
• Participants • Experiment Details • Trends • Effects • Results • Conclusions, Outlook
© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Slide 2
Participants
City University
SINAI/U Jaen *
Clairvoyance Corp.
Tagmatica
COLE Group/U La Coruna
Thomson Legal **
CWI/CNLP *
U Alicante *
Eurospider **
U Amsterdam *
Fondazione Ugo Bordoni
U Dortmund *
Hummingbird *
U Exeter *
IMBIT
U Hildesheim
IMS U Padova
U Maryland **
IRIT **
U Montreal/RALI **
ITC-irst **
U Neuchâtel *
JHU-APL **
U Salamanca **
Lexware
U Sheffield **
Medialab *
U Tampere **
Middlesex U
U Twente/TNO **
National Taiwan U *
UC Berkeley (2 groups) **
OCE Tech. BV *
UNED *
SICS/Conexor *
Xerox *
37 participants, 12 different countries. (*/** = one or two previous participations) © 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Slide 3
CLEF’s Global Reach
Flags: www.fg-a.com © 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Slide 4
CLEF Growth (Number of Participants)
40 35
All European
30 25 20 15 10 5 0 TREC-6
TREC-7
TREC-8
CLEF-2000 CLEF-2001 CLEF-2002
© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Slide 5
The CLEF Multilingual Collection # part.
# lg.
# docs.
Size in MB
# assess.
# topics
# ass. per topic
CLEF 2002
34
8
1,138,650
3011
140,043
50 (30)
~2900
CLEF 2001
31
6
940,487
2522
97,398
50
1948
CLEF 2000
20
4
368,763
1158
43,566
40
1089
TREC8 CLIR
12
4
698,773
1620
23,156
28
827
TREC8 AdHoc
41
1
528,155
1904
86,830
50
1736
TREC7 AdHoc
42+4
1
528,155
1904
~80,000
50
~1600
© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Slide 6
Tasks in CLEF 2002
• Multilingual as “main task”: documents in 5 languages, topics in 11 languages
• Bilingual tasks: any combination of 8 target languages, 11 topic languages
• English as target language: only newcomers or special cases
• Monolingual tasks: 7 target languages • Domain-specific: GIRT (German docs.) and Amaryllis (French docs.), bi- and monolingual, extra resources available
• Interactive track: special overview talk © 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Slide 7
Details of Experiments Track
# Participants
# Runs/Experiments
Multilingual
11
36
Bilingual to DE
6
13
Bilingual to EN
5
16
Bilingual to ES
7
16
Bilingual to FI
2
2
Bilingual to FR
7
14
Bilingual to IT
6
13
Bilingual to NL
7
10
Bilingual to SV
1
1
Monolingual DE
12
21
Monolingual ES
13
28
Monolingual FI
7
11
Monolingual FR
12
16
Monolingual IT
14
25
Monolingual NL
11
19
Monolingual SV
6
9
Domain-specific Amaryllis
3
15
Domain-specific GIRT
5
17
see interactive talk
see interactive talk
Interactive
© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Slide 8
Runs per Task Multi Bi-DE
15
36
17
Bi-EN Bi-ES
9
Bi-FI
13
Bi-FR
19
Bi-IT
16
Bi-NL Bi-SV
25
16 2 14
16
Mono-DE Mono-ES Mono-FI Mono-FR Mono-IT
13
11 28
21
1
10
Mono-NL Mono-SV GIRT Amaryllis
© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Slide 9
Runs per Topic Language
6 5 9 4
20
35
99
26
38 32
11
© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Dutch English Finnish French German Italian Spanish Swedish Chinese Portuguese Russian
Slide 10
Topic Fields
19
2
34
TDN TD T Other
227
© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Slide 11
Pooling
• “Tool” to handle the size of relevance assessment work • 179 of 282 runs assessed • Some tasks had all runs assessed: FI, SV, Amaryllis, GIRT • Runs are pooled respecting nearly a dozen criteria: - participant’s preferences - “originality” (task, topic fields, languages, ..) - participant/task coverage - .. © 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Slide 12
Preliminary Trends for CLEF-2002 (1)
• Less corpus-based features, still popular for combination (LSI, SimThes, stat. models)
• A few MT systems were very popular: Systran, LH Power Translator • Lots of work on query expansion: blind feedback, concepts/synonyms, assoc. thesaurus, SimThes, etc. (Berekely, Océ, Fond. U. Bordoni, COLE, U Salamanca, ..)
• Weighting: tuning per language vs. same parameters for all languages
© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Slide 13
Preliminary Trends for CLEF-2001 (2)
• Diverse work on stemming: simple, elaborate (morphological analyzers), programmable, etc.
• Interesting work on decompounding (different results for different languages?) • Merging: simple methods widely used, but some new ideas as well - unified index, reindex, prediction based on transl. quality, feedback-based
© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Slide 14
CLEF-2002 vs. CLEF-2001
• Many participants were back • More MT again, less corpus-based (approaches go into and out of favor) • People try each other’s ideas/methods: - n-grams - combination approaches - similarity thesaurus - stemmers
• Returning participants usually improve performance. (“Advantage for veteran groups”) © 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Slide 15
“Effect” of CLEF in 2001 (recycled slide)
• Many more European groups (21!) • Dramatic increase of work in stemming/decompounding (for languages other than English)
• Work on mining the web for parallel texts • Work on merging (breakthrough still missing?) • Work on combination approaches
© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Slide 16
“Effect” of CLEF in 2002
• Number of European groups still growing (27,5!) • Very sophisticated fine-tuning for individual languages • BUT: are we overtuning to characteristics of the CLEF collection?
• People show flexibility in adapting
resources/ideas as they come along (architectures?)
• Participants move from monolingual → bilingual → multilingual
© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Slide 17
CLEF 2002 Multilingual Track - Automatic 1,0 Uni Neuchâtel UC Berkeley 2 Eurospider U Jaen/SINAI Océ
0,9 0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Bilingual to German - Automatic 1,0 UC Berkeley 2 UC Berkeley 1 Uni Neuchâtel JHU/APL U Jaen/SINAI
0,9 0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Bilingual to English - Automatic 1,0 JHU/APL Clairvoyance Océ IRIT Middlesex U
0,9 0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Bilingual to Spanish - Automatic 1,0 Uni Neuchâtel UC Berkeley 2 U Exeter Océ JHU/APL
0,9 0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Bilingual to Finnish - Automatic 1,0 0,9 U Tampere JHU/APL
0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Bilingual to French - Automatic 1,0 Uni Neuchâtel UC Berkeley 2 UC Berkeley 1 JHU/APL U Jaen/SINAI
0,9 0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Bilingual to Italian - Automatic 1,0 UC Berkeley 2 U Exeter Uni Neuchâtel ITC-IRST JHU/APL
0,9 0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Bilingual to Dutch - Automatic 1,0 JHU/APL U Twente/TNO UC Berkeley 2 U Amsterdam Océ
0,9 0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Bilingual to Swedish - Automatic 1,0 0,9 JHU/APL
0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Monolingual German - Automatic 1,0 UC Berkeley 2 U Amsterdam U Neuchâtel JHU/APL Eurospider
0,9 0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Monolingual Spanish - Automatic 1,0 U Neuchâtel UC Berkeley 2 JHU/APL TLR Research U Alicante
0,9 0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Monolingual Finnish - Automatic 1,0 U Neuchâtel U Twente/TNO Hummingbird JHU/APL U Amsterdam
0,9 0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Monolingual French - Automatic 1,0 UC Berkeley 2 U Neuchâtel UC Berkeley 1 U Amsterdam JHU/APL
0,9 0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Monolingual Italian - Automatic 1,0 Fond. U. Bordoni ITC-IRST UC Berkeley 2 U Neuchâtel JHU/APL
0,9 0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Monolingual Dutch - Automatic 1,0 JHU/APL U Neuchâtel UC Berkeley 2 U Amsterdam Hummingbird
0,9 0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Monolingual Swedish - Automatic 1,0 JHU/APL U Amsterdam Hummingbird TLR Research SICS/Conexor
0,9 0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 GIRT Bilingual - Automatic 1,0 0,9 UC Berkeley 1 U Amsterdam
0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 GIRT Monolingual - Automatic 1,0 0,9
UC Berkeley 1 U Amsterdam U Dortmund U Hildesheim
0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Amaryllis Bilingual - Automatic 1,0 0,9 UC Berkeley 1 U Amsterdam
0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
CLEF 2002 Amaryllis Monolingual - Automatic 1,0 0,9 U Neuchâtel UC Berkeley 1 U Amsterdam
0,8 0,7
Precision
0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0
0,1
0,2
0,3
0,4
0,5 Recall
0,6
0,7
0,8
0,9
1,0
Conclusions and Outlook
• • • • • •
Returning groups improve performance and move to new tasks If you want top performance in the monolingual, you have to optimize the individual languages Groups show flexibility – they adapt lots of ideas, change approaches from year to year, combine new things Two of the main issues are merging and feedback Challenge will be how to handle the exploding number of “subtasks” How can we keep the tasks interesting for “veterans”, while still allowing new groups to catch up?
© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002
Slide 38