sobota, 13 lipca 2024, 23:50

Czas Ostrzeszowski w Korpusie Języka Polskiego!

W 2023 roku nasz tygodnik został zaangażowany przez PAN w tworzenie nowego Korpusu Współczesnego Języka Polskiego. Poproszono nas o udostępnienie tekstów opublikowanych w Czasie Ostrzeszowskim w latach 2011-2020. Dzięki temu możliwe jest udostępnienie badaczom narzędzi pozwalających na śledzenie nowych zjawisk, znajdujących swoje odzwierciedlenie w polszczyźnie.

Przypomnijmy, że Korpus Języka Polskiego to największa baza językowa, służąca m.in. do tworzenia słowników. Zawiera słowa obejmujące literaturę, czasopisma codzienne i specjalistyczne, nagrania oraz teksty z Internetu. Korpusy językowe znajdują też zastosowanie jako zbiory danych uczących i testowych w metodach uczenia maszynowego stosowanych w przetwarzaniu języków naturalnych.

Korpus językowy to zbiór tekstów, w którym szukamy typowych użyć słów i konstrukcji oraz informacji o ich znaczeniu i funkcji. Bez dostępu do korpusu nie da się dziś prowadzić badań językoznawczych, pisać słowników ani podręczników języków obcych. Tworzyć wyszukiwarek, uwzględniających polską odmianę, tłumaczy komputerowych ani innych programów zaawansowanej technologii językowej. Korpus jest niezbędny do pracy językoznawcom, ale korzystają zeń często także informatycy, historycy, bibliotekarze, badacze literatury i kultury.

Pierwszy Narodowy Korpus Języka Polskiego został stworzony przez Instytutu Podstaw Informatyki PAN, Instytut Języka Polskiego PAN, Wydawnictwo Naukowe PWN, oraz Zakład Językoznawstwa Komputerowego i Korpusowego Uniwersytetu Łódzkiego.

Kierownik projektu Daria.lab w IPI PAN, prof. dr. hab. Małgorzata Marciniak w swoim liście z podziękowaniami za pomoc napisała:

Obecnie trwają ostatnie prace związane z testowaniem wdrażanych funkcji, a z końcem roku 2023 zostanie udostępniony adres internetowy, pod którym będzie można znaleźć zrównoważony korpus współczesnej polszczyzny. Jak Państwo być może zauważyli, postanowiliśmy pierwotną nazwę Korpusu Dekady 2011-202 zmienić na Korpus Współczesnego Języka Polskiego, Dekada 2011-202. Czynimy tak w nadziei, że znajdą się w niedalekiej przyszłości środki na kontynuowanie projekty i systematyczne opracowywanie danych z kolejnych okresów.

Jesteśmy dumni z tego, że mogliśmy pomóc w tworzeniu tak ważnej dla polszczyzny bazy. To dla nas olbrzymie wyróżnienie i motywacja do dalszej, ciężkiej pracy. Liczymy też na to, że również w przyszłości będziemy mogli przyczynić się do rozwoju Korpusu w kolejnych latach.

Redakcja

Reklama
Reklama

Ogłoszenia

ogłoszenia o pracę

Teksty płatne