🌍 version in English (wersja w języku angielskim) — link
O projekcie
Stworzenie dobrego słownika jest ogromnym przedsięwzięciem, wymagającym od zespołu ekspertów (zwanych leksykografami) lat intensywnej pracy (a i dziesięcioleci przy dużych projektach). Wbrew potocznej opinii, liczba słów w języku nie jest zbiorem skończonym, zatem w każdym projekcie leksykografowie muszą podejmować decyzje, które słowa uwzględnić, a które pominąć. Najbardziej użyteczny słownik zawiera słowa, których użytkownicy najczęściej poszukują. Które to są słowa? Gdybyśmy mieli zbiór danych o aktywności użytkowników słownika, to powinniśmy móc policzyć, ile razy każde słowo było sprawdzane. Następne ciekawe pytanie, to jakie właściwości słów sprawiają, że są popularne (lub nie) wśród użytkowników słownika. Co sprawia, że niektóre słowa są szczególnie ważne? Najnowsze badania sugerują, że częstość leksykalna, czyli to, jak często słowo pojawia się w tekstach pisanych i mówionych, jest istotnym czynnikiem; przy czym wyrazy częstsze są poszukiwane częściej. W tym projekcie planujemy zbadać wpływ co najmniej trzech dalszych czynników: (1) wiek, w którym dane słowo opanowuje typowe dziecko mówiące tym językiem (w żargonie naukowym nazywa się to wiek akwizycji); (2) stopień, w jakim słowo jest znane dorosłym native speakerom (rozpowszechnienie leksykalne); oraz (3) ile różnych znaczeń ma wyraz (czyli polisemiczność). W tym celu musimy pozyskać, a następnie zestawić kilka dużych zbiorów danych leksykalnych. Po pierwsze, planujemy pobrać kompletne zapisy z serwerów angielskiego Wikisłownika i wyłowić z nich informacje o częstości wyszukiwania wszystkich haseł Wikisłownika: dzięki temu będziemy wiedzieć, które słowa użytkownicy wyszukują częściej, a które rzadziej. Przechodząc do informacji o czynnikach, które potencjalnie o tym mogą decydować, częstość leksykalną ustalimy, zliczając wystąpienia słów w bardzo dużych zbiorach tekstów angielskich (zwanych korpusami). Dalej, dobrej jakości dane dotyczące wieku akwizycji i rozpowszechnienia wyrazów angielskich są od niedawna dostępne dzięki badaniom innych specjalistów. Jeśli chodzi zaś o liczbę znaczeń, możemy policzyć je w istniejących hasłach Wikisłownika (nie ręcznie, naturalnie, jako że są ich miliony). Wszystkie te dane należy następnie powiązać. Następnym krokiem będzie opracowanie modeli matematycznych, które będą, z największą możliwą precyzją, „zgadywać” popularność wyrazu na podstawie jego cech leksykalnych. W tym celu planujemy zastosować zaawansowane metody modelowania. Nasze wyniki podpowiedzą twórcom słowników, na których wyrazach powinni skupić się w pracach leksykograficznych, dzięki czemu szybciej powstanie bardziej pomocny słownik. Wiedza o tym, co sprawia, że użytkownicy słowników wyszukują te słowa a nie inne, jest także interesująca teoretycznie, ponieważ mówi nam coś o tym, jak funkcjonuje język w naszych umysłach.
Zespół projektowy
Kierownik: Robert Lew
Wykonawca: Sascha Wolfer
Wystąpienia
- Poster przedstawiony w ramach 20th Euralex International Congress: Dictionaries and Society, Mannheim, Niemcy, 2022-06-12...16. [abstrakt]
- Referat "The Dark Side of the Wiktionary" przedstawiony na 8th eLex conference on lexicography in the 21st century: invisible lexicography, Brno, Czechy, 2023-06-27...29. [slajdy/abstrakt].
- Wystąpienie "CEFR Vocabulary Level as a Predictor of User Interest in English Wiktionary Entries" w ramach Linking Lexicographic and Language Learning Resources (4LR), Workshop na 4th conference on Language, Data and Knowledge (LDK), Wiedeń, Austria, 2023-09-13
Publikacje
- Lew, R., & Wolfer, S. (2024). What Lexical Factors Drive Look-Ups in the English Wiktionary? SAGE Open, 14(1), 21582440231219101. https://doi.org/10.1177/21582440231219101
- Lew, R., & Wolfer, S. (2024). CEFR vocabulary level as a predictor of user interest in English Wiktionary entries. Humanities and Social Sciences Communications, 11, 340. https://doi.org/10.1057/s41599-024-02838-4
Nadchodzące wydarzenia
- Prelekcja otwarta dla publiczności: Sascha Wolfer, ‘What dictionary look-up statistics can tell us: Predicting the CEFR level of words via Wiktionary look-ups’, 2024-05-21, Universität Hildesheim.
- Euralex 2024
Dane projektu
Projekt finansowany jest pzrez Narodowe Centrum Nauki (NCN) w ramach umowy UMO-2020/39/B/HS2/00923.