Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "Text mining" wg kryterium: Temat


Wyświetlanie 1-2 z 2
Tytuł:
A Modification of the Leacock-Chodorow Measure of the Semantic Relatedness of Concepts
Modyfikacja miary semantycznego podobieństwa pojęć Leacock‑Chodorowa
Autorzy:
Korzeniewski, Jerzy
Powiązania:
https://bibliotekanauki.pl/articles/1033576.pdf
Data publikacji:
2020-12-15
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
badanie tekstu
Sieć WordNet
podobieństwo semantyczne słów
miara Leacock‑Chodorowa
text mining
WordNet network
semantic relatedness
Lecock-Chodorov measure
Opis:
The measures of the semantic relatedness of concepts can be categorised into two types: knowledge‑based methods and corpus‑based methods. Knowledge‑based techniques make use of man‑created dictionaries, thesauruses and other artefacts as a source of knowledge. Corpus‑based techniques assess the semantic similarity of two concepts making use of large corpora of text documents. Some researchers claim that knowledge‑based measures outperform corpus‑based ones, but it is much more important to observe that the latter ones are heavily corpus dependent. In this article, we propose to modify the best WordNet‑based method of assessing semantic relatedness, i.e. the Leacock‑Chodorow measure. This measure has proven to be the best in several studies and has a very simple formula. We asses our proposal on the basis of two popular benchmark sets of pairs of concepts, i.e. the Ruben‑Goodenough set of 65 pairs of concepts and the Fickelstein set of 353 pairs of terms. The results prove that our proposal outperforms the traditional Leacock‑Chodorow measure.
Miary semantycznego podobieństwa pojęć można podzielić na dwa rodzaje: metody oparte na wiedzy i metody oparte na bazie tekstów. Techniki oparte na wiedzy stosują stworzone przez człowieka słowniki oraz inne opracowania. Techniki oparte na bazie tekstów oceniają podobieństwo semantyczne dwóch pojęć, odwołując się do obszernych baz dokumentów tekstowych. Niektórzy badacze twierdzą, że miary oparte na wiedzy są lepsze jakościowo od tych opartych na bazie tekstów, ale o wiele istotniejsze jest to, że te drugie zależą bardzo mocno od użytej bazy tekstów. W niniejszym artykule przedstawiono propozycję modyfikacji najlepszej metody pomiaru semantycznego podobieństwa pojęć, opartej na sieci WordNet, a mianowicie miary Leacock‑Chodorowa. Ta miara była najlepsza w kilku eksperymentach badawczych oraz można zapisać ją za pomocą prostej formuły. Nową propozycję oceniono na podstawie dwóch popularnych benchmarkowych zbiorów par pojęć, tj. zbioru 65 par pojęć Rubensteina‑Goodenougha oraz zbioru 353 par pojęć Fickelsteina. Wyniki pokazują, że przedstawiona propozycja spisała się lepiej od tradycyjnej miary Leacock‑Chodorowa.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2020, 6, 351; 97-106
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
New algorithm for determining the number of features for the effective sentiment-classification of text documents
Nowy algorytm ustalania liczby zmiennych potrzebnych do klasyfikacji dokumentów tekstowych ze względu na ich wydźwięk emocjonalny
Autorzy:
Idczak, Adam
Korzeniewski, Jerzy
Powiązania:
https://bibliotekanauki.pl/articles/18105028.pdf
Data publikacji:
2023-05-31
Wydawca:
Główny Urząd Statystyczny
Tematy:
sentiment analysis
document sentiment classification
text mining
logistic regression
naive Bayes classifier
feature selection
correlation
analiza sentymentu
klasyfikacja dokumentów ze względu na wydźwięk emocjonalny
eksploracja tekstu
regresja logistyczna
naiwny klasyfikator Bayesa
dobór cech
korelacja
Opis:
Sentiment analysis of text documents is a very important part of contemporary text mining. The purpose of this article is to present a new technique of text sentiment analysis which can be used with any type of a document-sentiment-classification method. The proposed technique involves feature selection independently of a classifier, which reduces the size of the feature space. Its advantages include intuitiveness and computational noncomplexity. The most important element of the proposed technique is a novel algorithm for the determination of the number of features to be selected sufficient for the effective classification. The algorithm is based on the analysis of the correlation between single features and document labels. A statistical approach, featuring a naive Bayes classifier and logistic regression, was employed to verify the usefulness of the proposed technique. They were applied to three document sets composed of 1,169 opinions of bank clients, obtained in 2020 from a Poland-based bank. The documents were written in Polish. The research demonstrated that reducing the number of terms over 10-fold by means of the proposed algorithm in most cases improves the effectiveness of classification.
Analiza sentymentu, czyli wydźwięku emocjonalnego, dokumentów tekstowych stanowi bardzo ważną część współczesnej eksploracji tekstu (ang. text mining). Celem artykułu jest przedstawienie nowej techniki analizy sentymentu tekstu, która może znaleźć zastosowanie w dowolnej metodzie klasyfikacji dokumentów ze względu na ich wydźwięk emocjonalny. Proponowana technika polega na niezależnym od klasyfikatora doborze cech, co skutkuje zmniejszeniem rozmiaru ich przestrzeni. Zaletami tej propozycji są intuicyjność i prostota obliczeniowa. Zasadniczym elementem omawianej techniki jest nowatorski algorytm ustalania liczby terminów wystarczających do efektywnej klasyfikacji, który opiera się na analizie korelacji pomiędzy pojedynczymi cechami dokumentów a ich wydźwiękiem. W celu weryfikacji przydatności proponowanej techniki zastosowano podejście statystyczne. Wykorzystano dwie metody: naiwny klasyfikator Bayesa i regresję logistyczną. Za ich pomocą zbadano trzy zbiory dokumentów składające się z 1169 opinii klientów jednego z banków działających na terenie Polski uzyskanych w 2020 r. Dokumenty zostały napisane w języku polskim. Badanie pokazało, że kilkunastokrotne zmniejszenie liczby terminów przy zastosowaniu proponowanej techniki na ogół poprawia jakość klasyfikacji.
Źródło:
Wiadomości Statystyczne. The Polish Statistician; 2023, 68, 5; 40-57
0043-518X
Pojawia się w:
Wiadomości Statystyczne. The Polish Statistician
Dostawca treści:
Biblioteka Nauki
Artykuł
    Wyświetlanie 1-2 z 2

    Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies