Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "sentence extraction" wg kryterium: Wszystkie pola


Wyświetlanie 1-3 z 3
Tytuł:
Automatyczne tworzenie podsumowań tekstów metodami algebraicznymi
Automatic text summarization using algebraic approach
Autorzy:
Gramacki, J.
Gramacki, A.
Powiązania:
https://bibliotekanauki.pl/articles/156932.pdf
Data publikacji:
2011
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
automatyczne podsumowywanie
ukryta semantyka dokumentów
przekształcenie SVD
generic text summarization
sentence extraction
latent semantic analysis
singular value decomposition
Opis:
Duża liczba zwracanych (na przykład przez różnego rodzaju wyszukiwarki internetowe) dokumentów oznacza, że często zmuszeni jesteśmy do czasochłonnego ich przeglądania, celem weryfikacji trafności zwracanych wyników. Gdy dokumenty są długie, czas ich przeglądania znacznie się wydłuża. Można by go wydatnie skrócić, gdyby istniała możliwość automatycznego generowania sensownych podsumowań (streszczeń). W artykule omawiamy wybrane algebraiczne metody służące automatycznemu wydobywaniu z tekstu jego najistotniejszych słów kluczowych oraz najistotniejszych zdań.
Text summarization is a real practical problem due to explosion of the volume of textual information available nowadays. In order to solve this problem, text summarization systems which extract brief information from a given text are created. The end user, by looking only at the summary, may decide whether the document is or is not of interest to him/her. Built summaries can have 2 fundamental forms. Firstly, extractive summarization may collect important sentences from the input text to constitute the summary. Secondly, abstractive summarization tries to capture main concepts of the text and then some new sentences, summarizing the input text, are generated. Nowadays, however, it seems that the latter approach still needs extensive works to be really useful. A summary can be extracted from a single document or multiple documents. In the paper the authors build summaries of one document only. The extension into multi-document summaries is the straightforward task in the case when a set of semantically uniform texts is summarized. Summaries may also be categorized as generic and query-based summaries. In the first case, there are generated summaries con-taining main topics of a document. In the second case, summaries contain the sentences that are related to the given queries. In the paper there are built generic summaries. Summarization systems use different approaches to determine important sentences. Here there is used semantic oriented approach based on a method known as Latent Semantic Analysis (LSA). LSA is an algebraic method that extracts meaning of words and similarity of sentences using the information about usage of the words in the context. It uses Singular Value Decomposition (SVD) for finding semantically similar words and sentences. Using the results of SVD the authors try to select best sentences (which constitute the best summary of the text). The paper is organized as follows. In Section 2 there is formulated the problem. In Section 3 there is shown how a docu-ment may be represented in a useful algebraic format. The so called Term-Sentence matrix (TSM) is used. The authors also point at some preliminary tasks necessary to be performed for successful further analysis. In Subsection 3.2 there is shortly presented an idea of LSA as based on SVD decomposition. In the last section 4 two examples of text summarizations build for both Polish and English texts are given. The two methods used differ slightly from each other. The authors' extracting key words and key sentences seems to be proper content-related summaries of the input texts.
Źródło:
Pomiary Automatyka Kontrola; 2011, R. 57, nr 7, 7; 751-755
0032-4140
Pojawia się w:
Pomiary Automatyka Kontrola
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Noisy-parallel and comparable corpora filtering methodology for the extraction of bi-lingual equivalent data at sentence level
Autorzy:
Wołk, K.
Powiązania:
https://bibliotekanauki.pl/articles/952937.pdf
Data publikacji:
2015
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
statistical machine translation
NLP
text filtering
comparable corpora
Opis:
Text alignment and text quality are critical to the accuracy of Machine Translation (MT) systems, some NLP tools, and any other text processing tasks requiring bilingual data. This research proposes a language-independent bisentence filtering approach based on Polish (not a position-sensitive language) to English experiments. This cleaning approach was developed on the TED Talks corpus and also initially tested on the Wikipedia comparable corpus, but it can be used for any text domain or language pair. The proposed approach implements various heuristics for sentence comparison. Some of the heuristics leverage synonyms as well as semantic and structural analysis of text as additional information. Minimization of data loss has been? ensured. An improvement in MT system scores with text processed using this tool is discussed.
Źródło:
Computer Science; 2015, 16 (2); 169-184
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The Absolute Phrase in Contemporary English
Autorzy:
BOSCH, JAMES VANDEN
Powiązania:
https://bibliotekanauki.pl/articles/954185.pdf
Data publikacji:
2009
Wydawca:
Uniwersytet Opolski
Tematy:
absolute phrase
tagged corpus
sentence fragments
syntax
relative frequency in spoken and written English
ICE-GB
POS-tagged corpus
absolute clause
nominative absolute
fixed absolutes
stereotyped absolutes
extraction formulas
Opis:
Until recently it has been difficult to obtain good information about the relative freąuency of the absolute phrase in spoken and written English. With a POS-tagged corpus like the ICE-GB, however, it is possible to use extraction formulas to find absolute phrases in the ICE-GB, a million-word corpus of contemporary English. In this study, I describe the re- sults of that corpus work, especially in terms of relative distribution by genre.
Źródło:
Stylistyka; 2009, 18; 323-335
1230-2287
2545-1669
Pojawia się w:
Stylistyka
Dostawca treści:
Biblioteka Nauki
Artykuł
    Wyświetlanie 1-3 z 3

    Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies