- Tytuł:
-
A Modification of the Leacock-Chodorow Measure of the Semantic Relatedness of Concepts
Modyfikacja miary semantycznego podobieństwa pojęć Leacock‑Chodorowa - Autorzy:
- Korzeniewski, Jerzy
- Powiązania:
- https://bibliotekanauki.pl/articles/1033576.pdf
- Data publikacji:
- 2020-12-15
- Wydawca:
- Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
- Tematy:
-
badanie tekstu
Sieć WordNet
podobieństwo semantyczne słów
miara Leacock‑Chodorowa
text mining
WordNet network
semantic relatedness
Lecock-Chodorov measure - Opis:
-
The measures of the semantic relatedness of concepts can be categorised into two types: knowledge‑based methods and corpus‑based methods. Knowledge‑based techniques make use of man‑created dictionaries, thesauruses and other artefacts as a source of knowledge. Corpus‑based techniques assess the semantic similarity of two concepts making use of large corpora of text documents. Some researchers claim that knowledge‑based measures outperform corpus‑based ones, but it is much more important to observe that the latter ones are heavily corpus dependent. In this article, we propose to modify the best WordNet‑based method of assessing semantic relatedness, i.e. the Leacock‑Chodorow measure. This measure has proven to be the best in several studies and has a very simple formula. We asses our proposal on the basis of two popular benchmark sets of pairs of concepts, i.e. the Ruben‑Goodenough set of 65 pairs of concepts and the Fickelstein set of 353 pairs of terms. The results prove that our proposal outperforms the traditional Leacock‑Chodorow measure.
Miary semantycznego podobieństwa pojęć można podzielić na dwa rodzaje: metody oparte na wiedzy i metody oparte na bazie tekstów. Techniki oparte na wiedzy stosują stworzone przez człowieka słowniki oraz inne opracowania. Techniki oparte na bazie tekstów oceniają podobieństwo semantyczne dwóch pojęć, odwołując się do obszernych baz dokumentów tekstowych. Niektórzy badacze twierdzą, że miary oparte na wiedzy są lepsze jakościowo od tych opartych na bazie tekstów, ale o wiele istotniejsze jest to, że te drugie zależą bardzo mocno od użytej bazy tekstów. W niniejszym artykule przedstawiono propozycję modyfikacji najlepszej metody pomiaru semantycznego podobieństwa pojęć, opartej na sieci WordNet, a mianowicie miary Leacock‑Chodorowa. Ta miara była najlepsza w kilku eksperymentach badawczych oraz można zapisać ją za pomocą prostej formuły. Nową propozycję oceniono na podstawie dwóch popularnych benchmarkowych zbiorów par pojęć, tj. zbioru 65 par pojęć Rubensteina‑Goodenougha oraz zbioru 353 par pojęć Fickelsteina. Wyniki pokazują, że przedstawiona propozycja spisała się lepiej od tradycyjnej miary Leacock‑Chodorowa. - Źródło:
-
Acta Universitatis Lodziensis. Folia Oeconomica; 2020, 6, 351; 97-106
0208-6018
2353-7663 - Pojawia się w:
- Acta Universitatis Lodziensis. Folia Oeconomica
- Dostawca treści:
- Biblioteka Nauki