- Tytuł:
-
Kartograficzne aspekty zastosowania data mining do pozyskiwania wiedzy z danych powszechnego spisu rolnego i narodowego spisu powszechnego ludności i mieszkań
Cartographical aspects of data mining to gain knowledge from the agricultural and national population and housing census - Autorzy:
-
Fiedukowicz, A.
Gąsiorowski, J. - Powiązania:
- https://bibliotekanauki.pl/articles/346560.pdf
- Data publikacji:
- 2012
- Wydawca:
- Polskie Towarzystwo Informacji Przestrzennej
- Tematy:
-
dane statystyczne
data mining
portal geostatystyczny
statistical data
geostatistics portal - Opis:
-
Wyzwaniem jakie niesie w sobie efekt powszechnej dostępności danych staje się problem twórczego ich przetworzenia, pozwalającego na uzyskanie użytecznej wiedzy na podstawie wnikliwej analizy informacji źródłowej. Prawidłowość ta powszechna w czasach rozwoju sieci globalnej, dotyczy także danych o charakterze przestrzennym, w tym szczególnie interesujących, danych o charakterze statystycznym. Celem autorów opracowania było zastosowanie zaawansowanych technik cyfrowego "drążenia danych przestrzennych" (ang. spatial data mining) zgromadzonych przez ankieterów GUS w ramach realizacji dwóch spisów powszechnych: Państwowego Spisu Rolnego (PSR) i Narodowego Spisu Powszechnego (NSP) oraz ich "wzbogacenia" (ang. data enrichment). Wykorzystanie tego podejścia, będącego współczesnym odpowiednikiem kartograficznej metody badań, pozwala nie tylko na "odkrycie" wzorców i prawidłowości przestrzennych, ale przede wszystkim na "ujawnienie" wiedzy zawartej w bazie danych i nadanie jej postaci explicite. Biorąc pod uwagę zakres oraz szczegółowość (najniższym udostępnianym przez GUS poziomem agregacji są gminy) danych pozyskanych w ramach obu spisów można spodziewać się występowania wielu zależności zachodzących między danymi – zarówno intuicyjnych, wymagających jedynie statystycznego potwierdzenia oraz kartograficznej wizualizacji, jak i bardziej złożonych i niejako "ukrytych" w danych. Identyfikacja, analiza i wizualizacja tych zależności pozwolą na uzyskanie dodatkowej wiedzy, która może być wykorzystana do realizacji rozwoju polityki przestrzennego zagospodarowania kraju. Autorzy przedstawili propozycje zarówno analiz statystycznych, jak również kartograficznej prezentacji wyników tych analiz, które mogą być przydatne w realizacji celów, jakie stawia sobie geoportal statystyczny. W artykule opisano dwa przykłady takich analiz. Pierwsza z nich bazuje na wykorzystaniu analizy regresji wielorakiej z uwzględnieniem relacji sąsiedztwa. W wyniku tej analizy zbudowany został model opisujący zależności pomiędzy zmiennymi rejestrowanymi w jednostkach podziału administracyjnego kraju. Drugim przykładem opisanym w artykule jest analiza skupień realizowana za pomocą algorytmu k-średnich. Metoda ta została wykorzystana do klasyfikacji statystycznych powiatów, pozwalającej na wyodrębnienie grup homogenicznych pod względem wieloczynnikowego podobieństwa wyznaczanego w niemetrycznej przestrzeni cech.
In the face of ubiquitous data availability, it becomes a challenge to process data in such a way that allows to gain useful knowledge based on the analysis of source information. The aim of the authors was to discuss the use of advanced spatial data mining techniques to data collected by the Central Statistical Office interviewers in two censuses: Agricultural Census and National Census of Population and Housing and of data enrichment. Using this approach, which is a modern equivalent of the cartographic research method, allows not only to discover spatial patterns and regularities, but above all to reveal some knowledge contained in the database. Taking into account the scope and level of detail (the lowest available level of aggregation by the Central Statistical Office are communes) in the data obtained in the two censuses a number of relationships between data may be expected – both intuitive, requiring only statistical confirmation and cartographic visualization, as well as more complex and "hidden" in the data. Identification, analysis and visualization of these dependencies will allow to gain additional knowledge that can be used to develop national spatial planning policy. The authors presented proposals of either statistical analyses or cartographic presentation of the results of analyses, which may be useful in achieving objectives set by the statistical geoportal. The article describes two examples of such analyses. The first one is based on multiple regression analysis taking into account the neighborhood relationships. The model describing the relationships between variables gathered for the administrative units was constructed in the result of the analysis. The second example described in the article is a cluster analysis performed by the k-means algorithm. This method was used for statistical classification of administrative units allowing to extract homogeneous groups with regard to multi-factor similarity determined in a non-metric feature space. - Źródło:
-
Roczniki Geomatyki; 2012, 10, 3; 55-66
1731-5522
2449-8963 - Pojawia się w:
- Roczniki Geomatyki
- Dostawca treści:
- Biblioteka Nauki