- Tytuł:
-
Finding similar documents in web search results
Identyfikowanie dokumentów podobnych w wynikach wyszukiwania w sieci WWW - Autorzy:
- Kużelewska, U.
- Powiązania:
- https://bibliotekanauki.pl/articles/341131.pdf
- Data publikacji:
- 2012
- Wydawca:
- Politechnika Białostocka. Oficyna Wydawnicza Politechniki Białostockiej
- Tematy:
-
grupowanie wyników wyszukiwania
podobieństwo dokumentów
grupowanie snippetów
web search results clustering
documents similarity
snippets clustering - Opis:
-
Searching the Web is a challenging task. According to the Zamir and Etzioni’s definition, Internet is “unorganized, unstructured and decentralized place”. Although there are powerful search engines available, the number of indexed web pages exceeds 1 trillion [20] and still grows. Most of the search engines return list of documents from their bases sorted according to their relevance to a search query. Such approach is not the best, because the returned list is very long and may contain documents not related to the query. To increase efficiency of a searching process one may identify groups of similar documents from result list. One of the tools to do it are traditional clustering algorithms. The article presents clustering Web search results directly from a search engine as well as sets created from results for different queries. Documents were grouped using the following methods: EM and XMeans.
Przeszukiwanie sieci WWW jest niezmiernie trudnym zadaniem. Według Zamira i Etzioniego Internet to "miejsce bez struktury, niezorganizowane i zdecentralizowane". Chociaz istnieją potężne narzędzia w postaci wyszukiwarek internetowych, ich użycie staje się z czasem trudniejsze, gdyż ilość zaindeksowanych stron internetowych przekracza 1 bln [20] i nadal rośnie. Większość wyszukiwarek generuje wyniki posortowane według ich zgodności z treścią zapytania w postaci bardzo długich list. Takie podejście nie jest najlepszym rozwiązaniem z powodu rozmiaru list oraz zawierania w nich dokumentów nie związanych z zapytaniem. W celu zwiększenia efektywności przeszukiwania Internetu można ˙ zastosowac grupowanie podobnych dokumentów z generowanej przez wyszukiwarki listy wyników. Jednym z takich narzędzi są tradycyjne algorytmy grupujące. W artykule przedstawiono wyniki grupowania dokumentów bezpośrednio z listy zwróconej przez wyszukiwarkę oraz zbiorów dokumentów utworzonych z wyników wyszukiwania dla kilku zapytań. Wykorzystano następujące metody grupujące: EM i XMeans. - Źródło:
-
Zeszyty Naukowe Politechniki Białostockiej. Informatyka; 2012, 9; 61-76
1644-0331 - Pojawia się w:
- Zeszyty Naukowe Politechniki Białostockiej. Informatyka
- Dostawca treści:
- Biblioteka Nauki