Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Tytuł pozycji:

Computational Analysis of Printed Arabic Text Database for Natural Language Processing

Tytuł:
Computational Analysis of Printed Arabic Text Database for Natural Language Processing
Analiza obliczeniowa bazy danych tekstów drukowanych w języku arabskim na potrzeby przetwarzania języka naturalnego
Autorzy:
Bouressace, Hassina
Powiązania:
https://bibliotekanauki.pl/articles/49331207.pdf
Data publikacji:
2023
Wydawca:
Polska Akademia Nauk. Instytut Slawistyki PAN
Tematy:
język arabski
słownictwo
dokumenty w języku arabskim
słownik frekwencyjny
baza danych tekstów drukowanych w języku arabskim
Arabic language
vocabulary
Arabic documents
frequency dictionary
Arabic printed text database
Źródło:
Cognitive Studies | Études cognitives; 2023, 23
1641-9758
2392-2397
Język:
angielski
Prawa:
CC BY: Creative Commons Uznanie autorstwa 4.0
Dostawca treści:
Biblioteka Nauki
Artykuł
  Przejdź do źródła  Link otwiera się w nowym oknie
A frequency dictionary of printed Arabic text is essential for natural language processing. It includes 1,251 XML files of Arabic documents collected from ten newspapers and magazines from different countries and created as the PATD database. A total of 2,344 articles were created with various structures: open vocabulary, multi-font, multi-size, and multi-style text. From these articles, 1,102,078 tokens, 19,926 sentences, and 1,000,000 words were extracted. This dictionary provides detailed information for each word, including English equivalents, usage statistics, usage distribution, and the most widely used terms. A thematic vocabulary list of the top words on various topics is also provided. This frequency dictionary is a useful resource of modern Arabic vocabulary for various specialists, students, and learners. The frequency dictionary is freely available to interested researchers on the webpage.

Słownik frekwencyjny bazy danych tekstów drukowanych w języku arabskim jest niezbędny do przetwarzania języka naturalnego. Baza danych tekstów drukowanych w języku arabskim (PATD) zawiera 1251 plików XML różnych dokumentów w języku arabskim pochodzących z dziesięciu gazet i czasopism z kilku krajów. Łącznie utworzono 2 344 artykuły o różnych strukturach: teksty z otwartym słownictwem, z wieloma czcionkami o różnej wielkości  i reprezentujące różne style. Z tych artykułów wyodrębniono 1 102 078 tokenów, 19 926 zdań i 1 000 000 leksemów. Słownik frekwencyjny jest przydatnym źródłem współczesnego słownictwa arabskiego dla różnych specjalistów, studentów oraz uczniów. Jest udostępniony bezpłatnie dla zainteresowanych badaczy na stronie internetowej.

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies