The article discusses the use of word sequences in text classification. As opposed to ngrams,
word sequences are not of a fixed length and therefore allow the classifier to obtain
flexibility necessary to operate on documents collected from various sources. Presented classifier
is built upon the suffix tree structure which enables word sequences to take part in classification
process. During classification, both single words and longer sequences are taken into account
and have impact on the category assignment with respect to their frequency and length. The
Suffix Tree Classifier and well known Naive Bayes Classifier are compared and their properties
are discussed. Obtained results show that incorporating word sequences into text classification
can increase accuracy and reveal some interesting relations between maximal length of used
sequences and classifier's error rate.
Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies
Informacja
SZANOWNI CZYTELNICY!
UPRZEJMIE INFORMUJEMY, ŻE BIBLIOTEKA FUNKCJONUJE W NASTĘPUJĄCYCH GODZINACH:
Wypożyczalnia i Czytelnia Główna: poniedziałek – piątek od 9.00 do 19.00