Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "document clustering" wg kryterium: Temat


Wyświetlanie 1-2 z 2
Tytuł:
Extending k-means with the description comes first approach
Autorzy:
Stefanowski, J.
Weiss, D.
Powiązania:
https://bibliotekanauki.pl/articles/970926.pdf
Data publikacji:
2007
Wydawca:
Polska Akademia Nauk. Instytut Badań Systemowych PAN
Tematy:
document clustering
cluster labels
k-means algorithm
information retrieval
Opis:
This paper describes a technique for clustering large collections of short and medium length text documents such as press articles, news stories and the like. The technique called description comes first (DCF) consists of identification of related document clusters, selection of salient phrases relevant to these clusters and reallocation of documents matching the selected phrases to form final document groups. The advantages of this technique include more comprehensive cluster labels and clearer (more transparent) relationship between cluster labels and their content. We demonstrate the DCF by taking a standard k-means algorithm as a baseline and weaving DCF elements into it; the outcome is the descriptive k-means (DKM) algorithm. The paper goes through technical background explaining how to implement DKM efficiently and ends with the description of an experiment measuring clustering quality on a benchmark document collection 20-newsgroups. Short fragments of this paper appeared at the poster session of the RIAO 2007 conference, Pittsburgh, PA, USA (electronic proceedings only).
Źródło:
Control and Cybernetics; 2007, 36, 4; 1009-1035
0324-8569
Pojawia się w:
Control and Cybernetics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Extraction of Polish noun senses from large corpora by means of clustering
Autorzy:
Broda, B.
Piasecki, M.
Szpakowicz, S.
Powiązania:
https://bibliotekanauki.pl/articles/969804.pdf
Data publikacji:
2010
Wydawca:
Polska Akademia Nauk. Instytut Badań Systemowych PAN
Tematy:
corpus linguistics
semantic similarity
Polish nouns
word clustering
Clustering by Committee
co-occurrence retrieval models
rank weight function
Polish WordNet
WordNet-based synonymy test
document clustering
keywords extraction
Opis:
We investigate two methods of identifying noun senses, based on clustering of lemmas and of documents. We have adapted to Polish the well-known algorithm of Clustering by Committee, and tested it on very large Polish corpora. The evaluation by means of a WordNet-based synonymy test used Polish wordnet (plWordNet 1.0). Various clustering algorithms were analysed for the needs of extraction of document clusters as indicators of the senses of words which occur in them. The two approaches to wordsense identification have been compared, and conclusions drawn.
Źródło:
Control and Cybernetics; 2010, 39, 2; 401-420
0324-8569
Pojawia się w:
Control and Cybernetics
Dostawca treści:
Biblioteka Nauki
Artykuł
    Wyświetlanie 1-2 z 2

    Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies