🌍 version in English (wersja w języku angielskim) — link

O projekcie

Stworzenie dobrego słownika jest ogromnym przedsięwzięciem, wymagającym od zespołu ekspertów (zwanych leksykografami) lat intensywnej pracy (a i dziesięcioleci przy dużych projektach). Wbrew potocznej opinii, liczba słów w języku nie jest zbiorem skończonym, zatem w każdym projekcie leksykografowie muszą podejmować decyzje, które słowa uwzględnić, a które pominąć. Najbardziej użyteczny słownik zawiera słowa, których użytkownicy najczęściej poszukują. Które to są słowa? Gdybyśmy mieli zbiór danych o aktywności użytkowników słownika, to powinniśmy móc policzyć, ile razy każde słowo było sprawdzane. Następne ciekawe pytanie, to jakie właściwości słów sprawiają, że są popularne (lub nie) wśród użytkowników słownika. Co sprawia, że niektóre słowa są szczególnie ważne? Najnowsze badania sugerują, że częstość leksykalna, czyli to, jak często słowo pojawia się w tekstach pisanych i mówionych, jest istotnym czynnikiem; przy czym wyrazy częstsze są poszukiwane częściej. W tym projekcie planujemy zbadać wpływ co najmniej trzech dalszych czynników: (1) wiek, w którym dane słowo opanowuje typowe dziecko mówiące tym językiem (w żargonie naukowym nazywa się to wiek akwizycji); (2) stopień, w jakim słowo jest znane dorosłym native speakerom (rozpowszechnienie leksykalne); oraz (3) ile różnych znaczeń ma wyraz (czyli polisemiczność). W tym celu musimy pozyskać, a następnie zestawić kilka dużych zbiorów danych leksykalnych. Po pierwsze, planujemy pobrać kompletne zapisy z serwerów angielskiego Wikisłownika i wyłowić z nich informacje o częstości wyszukiwania wszystkich haseł Wikisłownika: dzięki temu będziemy wiedzieć, które słowa użytkownicy wyszukują częściej, a które rzadziej. Przechodząc do informacji o czynnikach, które potencjalnie o tym mogą decydować, częstość leksykalną ustalimy, zliczając wystąpienia słów w bardzo dużych zbiorach tekstów angielskich (zwanych korpusami). Dalej, dobrej jakości dane dotyczące wieku akwizycji i rozpowszechnienia wyrazów angielskich są od niedawna dostępne dzięki badaniom innych specjalistów. Jeśli chodzi zaś o liczbę znaczeń, możemy policzyć je w istniejących hasłach Wikisłownika (nie ręcznie, naturalnie, jako że są ich miliony). Wszystkie te dane należy następnie powiązać. Następnym krokiem będzie opracowanie modeli matematycznych, które będą, z największą możliwą precyzją, „zgadywać” popularność wyrazu na podstawie jego cech leksykalnych. W tym celu planujemy zastosować zaawansowane metody modelowania. Nasze wyniki podpowiedzą twórcom słowników, na których wyrazach powinni skupić się w pracach leksykograficznych, dzięki czemu szybciej powstanie bardziej pomocny słownik. Wiedza o tym, co sprawia, że użytkownicy słowników wyszukują te słowa a nie inne, jest także interesująca teoretycznie, ponieważ mówi nam coś o tym, jak funkcjonuje język w naszych umysłach.

Robert Lew (right), poster (middle) and Sascha Wolfer (left) on EURALEX 2022 in Mannheim Robert Lew at eLex 2023 in Brno

Zespół projektowy

Kierownik: Robert Lew

Wykonawca: Sascha Wolfer

Brno city centre Sascha Wolfer at eLex 2023

Wystąpienia

Poster przedstawiony w ramach 20th Euralex International Congress: Dictionaries and Society, Mannheim, Niemcy, 2022-06-12...16. [abstrakt]
Referat "The Dark Side of the Wiktionary" przedstawiony na 8th eLex conference on lexicography in the 21st century: invisible lexicography, Brno, Czechy, 2023-06-27...29. [slajdy/abstrakt].
Wystąpienie "CEFR Vocabulary Level as a Predictor of User Interest in English Wiktionary Entries" w ramach Linking Lexicographic and Language Learning Resources (4LR), Workshop na 4th conference on Language, Data and Knowledge (LDK), Wiedeń, Austria, 2023-09-13
Referat na wiodącej konferencji leksykograficznej Euralex XXI International Congress: Lexicography and Semantics, Cavtat, Chorwacja, 8-12 października 2024. Wykład zatytułowany "Leveraging Dictionary Look-Up Behaviour to Supplement CEFR Vocabulary Lists", który wygłosił Sascha Wolfer 8. października, był transmitowany na żywo, a jego nagranie wideo synchronizowane ze slajdami jest publicznie dostępne w serwisie videolectures.net pod adresem: https://videolectures.net/videos/euralex2024_cavtat_wolfer_look_up_behavior

Publikacje

Lew, R., & Wolfer, S. (2024). What Lexical Factors Drive Look-Ups in the English Wiktionary? SAGE Open, 14(1), 21582440231219101. https://doi.org/10.1177/21582440231219101
Lew, R., & Wolfer, S. (2024). CEFR vocabulary level as a predictor of user interest in English Wiktionary entries. Humanities and Social Sciences Communications, 11, 340. https://doi.org/10.1057/s41599-024-02838-4

Wydarzenia

Prelekcja otwarta dla publiczności: Sascha Wolfer, ‘What dictionary look-up statistics can tell us: Predicting the CEFR level of words via Wiktionary look-ups’, 2024-05-21, Universität Hildesheim.
Wykład otwarty w ramach serii „WA Lunch Talks”: Robert Lew, "Uncovering Patterns in Dictionary Look-Up Behaviour: Machine Learning Meets CEFR Vocabulary Levels", 2024-12-11, Aula Hrynakowskiego, Wydział Anglistyki UAM, Grunwaldzka 6, Poznań.

Dane projektu

Projekt finansowany jest pzrez Narodowe Centrum Nauki (NCN) w ramach umowy UMO-2020/39/B/HS2/00923.