CLEF 2002 Overview of Results - Semantic Scholar

know-how

innovation

CLEF 2002 Overview of Results Martin Braschler Eurospider Information Technology AG 8006 Zürich, Switzerland [email protected]

solution

Outline

• Participants • Experiment Details • Trends • Effects • Results • Conclusions, Outlook

© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Slide 2

Participants

City University

SINAI/U Jaen *

Clairvoyance Corp.

Tagmatica

COLE Group/U La Coruna

Thomson Legal **

CWI/CNLP *

U Alicante *

Eurospider **

U Amsterdam *

Fondazione Ugo Bordoni

U Dortmund *

Hummingbird *

U Exeter *

IMBIT

U Hildesheim

IMS U Padova

U Maryland **

IRIT **

U Montreal/RALI **

ITC-irst **

U Neuchâtel *

JHU-APL **

U Salamanca **

Lexware

U Sheffield **

Medialab *

U Tampere **

Middlesex U

U Twente/TNO **

National Taiwan U *

UC Berkeley (2 groups) **

OCE Tech. BV *

UNED *

SICS/Conexor *

Xerox *

37 participants, 12 different countries. (*/** = one or two previous participations) © 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Slide 3

CLEF’s Global Reach

Flags: www.fg-a.com © 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Slide 4

CLEF Growth (Number of Participants)

40 35

All European

30 25 20 15 10 5 0 TREC-6

TREC-7

TREC-8

CLEF-2000 CLEF-2001 CLEF-2002

© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Slide 5

The CLEF Multilingual Collection # part.

# lg.

# docs.

Size in MB

# assess.

# topics

# ass. per topic

CLEF 2002

34

8

1,138,650

3011

140,043

50 (30)

~2900

CLEF 2001

31

6

940,487

2522

97,398

50

1948

CLEF 2000

20

4

368,763

1158

43,566

40

1089

TREC8 CLIR

12

4

698,773

1620

23,156

28

827

TREC8 AdHoc

41

1

528,155

1904

86,830

50

1736

TREC7 AdHoc

42+4

1

528,155

1904

~80,000

50

~1600

© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Slide 6

Tasks in CLEF 2002

• Multilingual as “main task”: documents in 5 languages, topics in 11 languages

• Bilingual tasks: any combination of 8 target languages, 11 topic languages

• English as target language: only newcomers or special cases

• Monolingual tasks: 7 target languages • Domain-specific: GIRT (German docs.) and Amaryllis (French docs.), bi- and monolingual, extra resources available

• Interactive track: special overview talk © 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Slide 7

Details of Experiments Track

# Participants

# Runs/Experiments

Multilingual

11

36

Bilingual to DE

6

13

Bilingual to EN

5

16

Bilingual to ES

7

16

Bilingual to FI

2

2

Bilingual to FR

7

14

Bilingual to IT

6

13

Bilingual to NL

7

10

Bilingual to SV

1

1

Monolingual DE

12

21

Monolingual ES

13

28

Monolingual FI

7

11

Monolingual FR

12

16

Monolingual IT

14

25

Monolingual NL

11

19

Monolingual SV

6

9

Domain-specific Amaryllis

3

15

Domain-specific GIRT

5

17

see interactive talk

see interactive talk

Interactive

© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Slide 8

Runs per Task Multi Bi-DE

15

36

17

Bi-EN Bi-ES

9

Bi-FI

13

Bi-FR

19

Bi-IT

16

Bi-NL Bi-SV

25

16 2 14

16

Mono-DE Mono-ES Mono-FI Mono-FR Mono-IT

13

11 28

21

1

10

Mono-NL Mono-SV GIRT Amaryllis

© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Slide 9

Runs per Topic Language

6 5 9 4

20

35

99

26

38 32

11

© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Dutch English Finnish French German Italian Spanish Swedish Chinese Portuguese Russian

Slide 10

Topic Fields

19

2

34

TDN TD T Other

227

© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Slide 11

Pooling

• “Tool” to handle the size of relevance assessment work • 179 of 282 runs assessed • Some tasks had all runs assessed: FI, SV, Amaryllis, GIRT • Runs are pooled respecting nearly a dozen criteria: - participant’s preferences - “originality” (task, topic fields, languages, ..) - participant/task coverage - .. © 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Slide 12

Preliminary Trends for CLEF-2002 (1)

• Less corpus-based features, still popular for combination (LSI, SimThes, stat. models)

• A few MT systems were very popular: Systran, LH Power Translator • Lots of work on query expansion: blind feedback, concepts/synonyms, assoc. thesaurus, SimThes, etc. (Berekely, Océ, Fond. U. Bordoni, COLE, U Salamanca, ..)

• Weighting: tuning per language vs. same parameters for all languages

© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Slide 13

Preliminary Trends for CLEF-2001 (2)

• Diverse work on stemming: simple, elaborate (morphological analyzers), programmable, etc.

• Interesting work on decompounding (different results for different languages?) • Merging: simple methods widely used, but some new ideas as well - unified index, reindex, prediction based on transl. quality, feedback-based

© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Slide 14

CLEF-2002 vs. CLEF-2001

• Many participants were back • More MT again, less corpus-based (approaches go into and out of favor) • People try each other’s ideas/methods: - n-grams - combination approaches - similarity thesaurus - stemmers

• Returning participants usually improve performance. (“Advantage for veteran groups”) © 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Slide 15

“Effect” of CLEF in 2001 (recycled slide)

• Many more European groups (21!) • Dramatic increase of work in stemming/decompounding (for languages other than English)

• Work on mining the web for parallel texts • Work on merging (breakthrough still missing?) • Work on combination approaches

© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Slide 16

“Effect” of CLEF in 2002

• Number of European groups still growing (27,5!) • Very sophisticated fine-tuning for individual languages • BUT: are we overtuning to characteristics of the CLEF collection?

• People show flexibility in adapting

resources/ideas as they come along (architectures?)

• Participants move from monolingual → bilingual → multilingual

© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Slide 17

CLEF 2002 Multilingual Track - Automatic 1,0 Uni Neuchâtel UC Berkeley 2 Eurospider U Jaen/SINAI Océ

0,9 0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Bilingual to German - Automatic 1,0 UC Berkeley 2 UC Berkeley 1 Uni Neuchâtel JHU/APL U Jaen/SINAI

0,9 0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Bilingual to English - Automatic 1,0 JHU/APL Clairvoyance Océ IRIT Middlesex U

0,9 0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Bilingual to Spanish - Automatic 1,0 Uni Neuchâtel UC Berkeley 2 U Exeter Océ JHU/APL

0,9 0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Bilingual to Finnish - Automatic 1,0 0,9 U Tampere JHU/APL

0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Bilingual to French - Automatic 1,0 Uni Neuchâtel UC Berkeley 2 UC Berkeley 1 JHU/APL U Jaen/SINAI

0,9 0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Bilingual to Italian - Automatic 1,0 UC Berkeley 2 U Exeter Uni Neuchâtel ITC-IRST JHU/APL

0,9 0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Bilingual to Dutch - Automatic 1,0 JHU/APL U Twente/TNO UC Berkeley 2 U Amsterdam Océ

0,9 0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Bilingual to Swedish - Automatic 1,0 0,9 JHU/APL

0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Monolingual German - Automatic 1,0 UC Berkeley 2 U Amsterdam U Neuchâtel JHU/APL Eurospider

0,9 0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Monolingual Spanish - Automatic 1,0 U Neuchâtel UC Berkeley 2 JHU/APL TLR Research U Alicante

0,9 0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Monolingual Finnish - Automatic 1,0 U Neuchâtel U Twente/TNO Hummingbird JHU/APL U Amsterdam

0,9 0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Monolingual French - Automatic 1,0 UC Berkeley 2 U Neuchâtel UC Berkeley 1 U Amsterdam JHU/APL

0,9 0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Monolingual Italian - Automatic 1,0 Fond. U. Bordoni ITC-IRST UC Berkeley 2 U Neuchâtel JHU/APL

0,9 0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Monolingual Dutch - Automatic 1,0 JHU/APL U Neuchâtel UC Berkeley 2 U Amsterdam Hummingbird

0,9 0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Monolingual Swedish - Automatic 1,0 JHU/APL U Amsterdam Hummingbird TLR Research SICS/Conexor

0,9 0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 GIRT Bilingual - Automatic 1,0 0,9 UC Berkeley 1 U Amsterdam

0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 GIRT Monolingual - Automatic 1,0 0,9

UC Berkeley 1 U Amsterdam U Dortmund U Hildesheim

0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Amaryllis Bilingual - Automatic 1,0 0,9 UC Berkeley 1 U Amsterdam

0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

CLEF 2002 Amaryllis Monolingual - Automatic 1,0 0,9 U Neuchâtel UC Berkeley 1 U Amsterdam

0,8 0,7

Precision

0,6 0,5 0,4 0,3 0,2 0,1 0,0 0,0

0,1

0,2

0,3

0,4

0,5 Recall

0,6

0,7

0,8

0,9

1,0

Conclusions and Outlook

• • • • • •

Returning groups improve performance and move to new tasks If you want top performance in the monolingual, you have to optimize the individual languages Groups show flexibility – they adapt lots of ideas, change approaches from year to year, combine new things Two of the main issues are merging and feedback Challenge will be how to handle the exploding number of “subtasks” How can we keep the tasks interesting for “veterans”, while still allowing new groups to catch up?

© 2002 Eurospider Information Technology AG | CLEF 2002 Overview | Martin Braschler | 19.9.2002

Slide 38