Temat: text documents - Katalog OPAC zbiorów

Skocz do pozycji: 1.

Tytuł:: Narzędzia do automatycznego streszczania tekstów w języku polskim. Stan badań naukowych i prac wdrożeniowych
Tools for automatic summarization of texts in Polish. State of the research and implementation workse
Autorzy:: Glenc, Piotr
Powiązania:: https://bibliotekanauki.pl/articles/1191628.pdf
Data publikacji:: 2021
Wydawca:: Szkoła Główna Handlowa w Warszawie
Tematy:: text summarization
Natural Language Processing
text documents
Polish language processing
automation of knowledge acquisition
streszczanie tekstów
przetwarzanie języka naturalnego
dokumenty tekstowe
przetwarzanie języka polskiego
automatyzacja pozyskiwania wiedzy
Opis:: The goal of the publication is to present the state of research and works carried out in Poland on the issue of automatic text summarization. The author describes principal theoretical and methodological issues related to automatic summary generation followed by the outline of the selected works on the automatic abstracting of Polish texts. The author also provides three examples of IT tools that generate summaries of texts in Polish (Summarize, Resoomer, and NICOLAS) and their characteristics derived from the conducted experiment, which included quality assessment of generated summaries using ROUGE-N metrics. The results of both actions showed a deficiency of tools allowing to automatically create summaries of Polish texts, especially in the abstractive approach. Most of the proposed solutions are based on the extractive method, which uses parts of the original text to create its abstract. There is also a shortage of tools generating one common summary of many text documents and specialized tools generating summaries of documents related to specific subject areas. Moreover, it is necessary to intensify works on creating the corpora of Polish-language text summaries, which the computer scientists could apply to evaluate their newly developed tools.
Celem publikacji jest przedstawienie stanu badań i prac prowadzonych w Polsce nad zagadnieniem automatycznego streszczania tekstów. Przedstawiono podstawowe zagadnienia teoretyczne i metodologiczne związane z automatycznym generowaniem streszczeń dokumentów tekstowych. Na tle tych rozważań dokonano opisu wybranych prac dotyczących automatycznego generowania streszczeń tekstów polskojęzycznych. Zaprezentowano również przykłady narzędzi informatycznych generujących streszczenia tekstów w języku polskim (Summarize, Resoomer, NICOLAS) oraz dokonano oceny jakości generowanych streszczeń z wykorzystaniem miar ROUGE-N. Wyniki badań literaturowych i przeprowadzonego eksperymentu wskazały na niedobór narzędzi pozwalających na generowanie streszczeń tekstów polskojęzycznych, zwłaszcza w podejściu abstraktowym. Większość zaproponowanych rozwiązań pozwala na generowanie streszczeń w podejściu ekstrakcyjnym, polegającym na wykorzystywaniu w tworzonym streszczeniu fragmentów oryginalnego tekstu. Widoczny jest również niedobór narzędzi pozwalających na wygenerowanie jednego streszczenia wielu tekstów oraz narzędzi wyspecjalizowanych, pozwalających na generowanie streszczeń tekstów dotyczących konkretnych obszarów tematycznych. Ponadto konieczne jest zintensyfikowanie prac w obszarze tworzenia korpusów streszczeń polskojęzycznych tekstów, które będą mogły być wykorzystane do ewaluacji nowo tworzonych narzędzi.
Źródło:: e-mentor. Czasopismo naukowe Szkoły Głównej Handlowej w Warszawie; 2021, 89, 2; 67-77
1731-6758
1731-7428
Pojawia się w:: e-mentor. Czasopismo naukowe Szkoły Głównej Handlowej w Warszawie
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Skocz do pozycji: 2.

Tytuł:: Computational Analysis of Printed Arabic Text Database for Natural Language Processing
Analiza obliczeniowa bazy danych tekstów drukowanych w języku arabskim na potrzeby przetwarzania języka naturalnego
Autorzy:: Bouressace, Hassina
Powiązania:: https://bibliotekanauki.pl/articles/49331207.pdf
Data publikacji:: 2023
Wydawca:: Polska Akademia Nauk. Instytut Slawistyki PAN
Tematy:: język arabski
słownictwo
dokumenty w języku arabskim
słownik frekwencyjny
baza danych tekstów drukowanych w języku arabskim
Arabic language
vocabulary
Arabic documents
frequency dictionary
Arabic printed text database
Opis:: A frequency dictionary of printed Arabic text is essential for natural language processing. It includes 1,251 XML files of Arabic documents collected from ten newspapers and magazines from different countries and created as the PATD database. A total of 2,344 articles were created with various structures: open vocabulary, multi-font, multi-size, and multi-style text. From these articles, 1,102,078 tokens, 19,926 sentences, and 1,000,000 words were extracted. This dictionary provides detailed information for each word, including English equivalents, usage statistics, usage distribution, and the most widely used terms. A thematic vocabulary list of the top words on various topics is also provided. This frequency dictionary is a useful resource of modern Arabic vocabulary for various specialists, students, and learners. The frequency dictionary is freely available to interested researchers on the webpage.
Słownik frekwencyjny bazy danych tekstów drukowanych w języku arabskim jest niezbędny do przetwarzania języka naturalnego. Baza danych tekstów drukowanych w języku arabskim (PATD) zawiera 1251 plików XML różnych dokumentów w języku arabskim pochodzących z dziesięciu gazet i czasopism z kilku krajów. Łącznie utworzono 2 344 artykuły o różnych strukturach: teksty z otwartym słownictwem, z wieloma czcionkami o różnej wielkości i reprezentujące różne style. Z tych artykułów wyodrębniono 1 102 078 tokenów, 19 926 zdań i 1 000 000 leksemów. Słownik frekwencyjny jest przydatnym źródłem współczesnego słownictwa arabskiego dla różnych specjalistów, studentów oraz uczniów. Jest udostępniony bezpłatnie dla zainteresowanych badaczy na stronie internetowej.
Źródło:: Cognitive Studies | Études cognitives; 2023, 23
1641-9758
2392-2397
Pojawia się w:: Cognitive Studies | Études cognitives
Dostawca treści:: Biblioteka Nauki

Artykuł

Zmień widok

na półce

Informacja

Wyszukujesz frazę "text documents" wg kryterium: Temat

Źródło danych

Dostawca treści

Kolekcja

Rok wydania

Wydawca

Temat

Autor

Typ dokumentu

Język