Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "data scraping" wg kryterium: Temat


Wyświetlanie 1-6 z 6
Tytuł:
Convolutional Neural Networks as Context-Scraping Tools in Architecture and Urban Planning
Splotowe sieci neuronowe jako narzędzia służące wydobywaniu danych architektoniczno-urbanistycznych
Autorzy:
Dzieduszyński, Tomasz
Powiązania:
https://bibliotekanauki.pl/articles/2064144.pdf
Data publikacji:
2022
Wydawca:
PWB MEDIA Zdziebłowski
Tematy:
sieć neuronowa splotowa
architektura
urbanistyka
miasto inteligentne
wydobywanie danych
CAAD
convolutional neural network
architecture
urban planning
smart city
data scraping
Opis:
"Data scraping" is a term usually used in Web browsing to refer to the automated process of data extraction from websites or interfaces designed for human use. Currently, nearly two thirds of Net traffic are generated by bots rather than humans. Similarly, Deep Convolutional Neural Networks (CNNs) can be used as artificial agents scraping cities for relevant contexts. The convolutional filters, which distinguish CNNs from the Fully-connected Neural Networks (FNNs), make them very promising candidates for feature detection in the abundant and easily accessible smart-city data consisting of GIS and BIM models, as well as satellite imagery and sensory outputs. These new, convolutional city users could roam the abstract, digitized spaces of our cities to provide insight into the architectural and urban contexts relevant to design and management processes. This article presents the results of a query of the state-of-the-art applications of Convolutional Neural Networks as architectural “city scrapers” and proposes a new, experimental framework for utilization of CNNs in context scraping in urban scale.
„Data scraping” to termin używany zazwyczaj w kontekście ruchu sieciowego, oznaczający proces automatycznej ekstrakcji danych ze stron internetowych i interfejsów, zaprojektowanych do stosowania przez człowieka. Obecnie blisko dwie trzecie ruchu internetowego jest generowanych przez boty, a nie przez ludzi. Na podobnej zasadzie głębokie splotowe sieci neuronowe (CNN) mogą być stosowane jako narzędzia wyszukujące w miastach stosowne konteksty urbanistyczne. Filtry splotowe, odróżniające CNN od sieci w pełni połączonych (FNN), sprawiają, że są one obiecującymi kandydatami do wykrywania cech ukrytych w zasobnych i łatwo dostępnych danych smart city, składających się z modeli GIS i BiM oraz obrazów satelitarnych oraz innych danych sensorycznych. Filtry splotowe mogą przemierzać abstrakcyjne, cyfrowe przestrzenie naszych miast, dostarczając kontekstów przydatnych w projektowaniu oraz zarządzaniu architektoniczno-urbanistycznym. Artykuł prezentuje wyniki kwerendy źródeł dotyczących najnowszych zastosowań splotowych sieci neuronowych w wydobywaniu danych miejskich i proponuje nowe, eksperymentalne ramy dla wykorzystania CNN w ekstrakcji kontekstów urbanistycznych.
Źródło:
Builder; 2022, 26, 3; 79--81
1896-0642
Pojawia się w:
Builder
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Current challenges and possible big data solutions for the use of web data as a source for official statistics
Współczesne wyzwania i możliwości w zakresie stosowania narzędzi big data do uzyskania danych webowych jako źródła dla statystyki publicznej
Autorzy:
Daas, Piet
Maślankowski, Jacek
Powiązania:
https://bibliotekanauki.pl/articles/31232088.pdf
Data publikacji:
2023-12-29
Wydawca:
Główny Urząd Statystyczny
Tematy:
big data
web data
websites
web scraping
dane webowe
strony internetowe
Opis:
Web scraping has become popular in scientific research, especially in statistics. Preparing an appropriate IT environment for web scraping is currently not difficult and can be done relatively quickly. Extracting data in this way requires only basic IT skills. This has resulted in the increased use of this type of data, widely referred to as big data, in official statistics. Over the past decade, much work was done in this area both on the national level within the national statistical institutes, and on the international one by Eurostat. The aim of this paper is to present and discuss current problems related to accessing, extracting, and using information from websites, along with the suggested potential solutions. For the sake of the analysis, a case study featuring large-scale web scraping performed in 2022 by means of big data tools is presented in the paper. The results from the case study, conducted on a total population of approximately 503,700 websites, demonstrate that it is not possible to provide reliable data on the basis of such a large sample, as typically up to 20% of the websites might not be accessible at the time of the survey. What is more, it is not possible to know the exact number of active websites in particular countries, due to the dynamic nature of the Internet, which causes websites to continuously change.
Web scraping jest coraz popularniejszy w badaniach naukowych, zwłaszcza w dziedzinie statystyki. Przygotowanie środowiska do scrapowania danych nie przysparza obecnie trudności i może być wykonane relatywnie szybko, a uzyskiwanie informacji w ten sposób wymaga jedynie podstawowych umiejętności cyfrowych. Dzięki temu statystyka publiczna w coraz większym stopniu korzysta z dużych wolumenów danych, czyli big data. W drugiej dekadzie XXI w. zarówno krajowe urzędy statystyczne, jak i Eurostat włożyły dużo pracy w doskonalenie narzędzi big data. Nadal istnieją jednak trudności związane z dostępnością, ekstrakcją i wykorzystywaniem informacji pobranych ze stron internetowych. Tym problemom oraz potencjalnym sposobom ich rozwiązania został poświęcony niniejszy artykuł. Omówiono studium przypadku masowego web scrapingu wykonanego w 2022 r. za pomocą narzędzi big data na próbie 503 700 stron internetowych. Z analizy wynika, że dostarczenie wiarygodnych danych na podstawie tak dużej próby jest niemożliwe, ponieważ w czasie badania zwykle do 20% stron internetowych może być niedostępnych. Co więcej, dokładna liczba aktywnych stron internetowych w poszczególnych krajach nie jest znana ze względu na dynamiczny charakter Internetu, skutkujący ciągłymi zmianami stron internetowych.
Źródło:
Wiadomości Statystyczne. The Polish Statistician; 2023, 68, 12; 49-64
0043-518X
Pojawia się w:
Wiadomości Statystyczne. The Polish Statistician
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Pozyskiwanie i analiza danych na temat ofert pracy z wykorzystaniem big data
The collection and analysis of the data on job advertisements with the use of big data
Autorzy:
Maślankowski, Jacek
Powiązania:
https://bibliotekanauki.pl/articles/962829.pdf
Data publikacji:
2019
Wydawca:
Główny Urząd Statystyczny
Tematy:
big data
text mining
web scraping
rynek pracy
labour market
Opis:
Celem artykułu jest zaprezentowanie korzyści wynikających z wykorzystania na potrzeby statystyki publicznej (rynku pracy) narzędzi do automatycznego pobierania danych na temat ofert pracy zamieszczanych na stronach internetowych zaliczanych do zbiorów big data, a także związanych z tym wyzwań. Przedstawiono wyniki eksperymentalnych badań z wykorzystaniem metod web scrapingu oraz text miningu. Analizie poddano dane z lat 2017 i 2018 pochodzące z najpopularniejszych portali z ofertami pracy. Odwołano się do danych Głównego Urzędu Statystycznego (GUS) zbieranych na podstawie sprawozdania Z-05. Przeprowadzona analiza prowadzi do wniosku, że web scraping może być stosowany w statystyce publicznej do pozyskiwania danych statystycznych z alternatywnych źródeł, uzupełniających istniejące bazy danych statystycznych, pod warunkiem zachowania spójności z istniejącymi badaniami.
The goal of this paper is to present, on the one hand, the benefits for official statistics (labour market) resulting from the use of web scraping methods to gather data on job advertisements from websites belonging to big data compilations, and on the other, the challenges connected to this process. The paper introduces the results of experimental research where web-scraping and text-mining methods were adopted. The analysis was based on the data from 2017–2018 obtained from the most popular jobsearching websites, which was then collated with Statistics Poland’s data obtained from Z-05 forms. The above-mentioned analysis demonstrated that web-scraping methods can be adopted by public statistics services to obtain statistical data from alternative sources complementing the already-existing databases, providing the findings of such research remain coherent with the results of the already-existing studies.
Źródło:
Wiadomości Statystyczne. The Polish Statistician; 2019, 64, 9; 60-74
0043-518X
Pojawia się w:
Wiadomości Statystyczne. The Polish Statistician
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The use of web-scraped data to analyze the dynamics of footwear prices
Autorzy:
Juszczak, Adam
Powiązania:
https://bibliotekanauki.pl/articles/2027264.pdf
Data publikacji:
2021
Wydawca:
Uniwersytet Ekonomiczny w Katowicach
Tematy:
Big data
Consumer Price Index
Inflation
Online shopping
Web-scraping
Opis:
Aim/purpose – Web-scraping is a technique used to automatically extract data from websites. After the rise-up of online shopping, it allows the acquisition of information about prices of goods sold by retailers such as supermarkets or internet shops. This study examines the possibility of using web-scrapped data from one clothing store. It aims at comparing known price index formulas being implemented to the web-scraping case and verifying their sensitivity on the choice of data filter type. Design/methodology/approach – The author uses the price data scrapped from one of the biggest online shops in Poland. The data were obtained as part of eCPI (electronic Consumer Price Index) project conducted by the National Bank of Poland. The author decided to select three types of products for this analysis – female ballerinas, male shoes, and male oxfords to compare their prices in over one-year time period. Six price indexes were used for calculation – The Jevons and Dutot indexes with their chain and GEKS (acronym from the names of creators – Gini–Éltető–Köves–Szulc) versions. Apart from the analysis conducted on a full data set, the author introduced filters to remove outliers. Findings – Clothing and footwear are considered one of the most difficult groups of goods to measure price change indexes due to high product churn, which undermines the possibility to use the traditional Jevons and Dutot indexes. However, it is possible to use chained indexes and GEKS indexes instead. Still, these indexes are fairly sensitive to large price changes. As observed in case of both product groups, the results provided by the GEKS and chained versions of indexes were different, which could lead to conclusion that even though they are lending promising results, they could be better suited for other COICOP (Classification of Individual Consumption by Purpose) groups. Research implications/limitations – The findings of the paper showed that usage of filters did not significantly reduce the difference between price indexes based on GEKS and chain formulas. Originality/value/contribution – The usage of web-scrapped data is a fairly new topic in the literature. Research on the possibility of using different price indexes provides useful insights for future usage of these data by statistics offices.
Źródło:
Journal of Economics and Management; 2021, 43; 251-269
1732-1948
Pojawia się w:
Journal of Economics and Management
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Zastosowanie danych scrapowanych w pomiarze dynamiki cen
Autorzy:
Juszczak, Adam
Powiązania:
https://bibliotekanauki.pl/articles/1033541.pdf
Data publikacji:
2021-03-02
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
inflacja
CPI
web‑scraping
Jevons
Dutot
GEKS‑J
GEKS‑D
łańcuchowy Jevons
łańcuchowy Dutot
zakupy on‑line
big data
inflation
Web‑scraping
Chained Jevons
online shopping
Big data
Opis:
Web‑scraping to technika, którą można wykorzystać do automatycznego pozyskiwania danych zamieszczonych na stronach internetowych. Wraz ze wzrostem popularności zakupów on‑line coraz więcej sklepów i usługodawców zainwestowało w strony WWW z ofertą cenową. Przekłada się to na możliwość automatycznego ściągania przez badaczy cen detalistów z wielu branż, m.in. odzieżowej czy spożywczej. Wykorzystanie danych scrapowanych skutkuje nie tylko znaczącym obniżeniem kosztów badania cen, ale także poprawia precyzję szacunków inflacji i daje możliwość śledzenia jej w czasie rzeczywistym. Z tego względu web‑scraping jest dziś popularnym obiektem badań zarówno ośrodków statystycznych (Eurostat, brytyjski Office of National Statistics, belgijski Statbel), jak i uniwersytetów (m.in. Billion Prices Project prowadzony w Massachusetts Institute of Technology). Zastosowanie danych scrapowanych do liczenia inflacji wiąże się jednak z wieloma wyzwaniami na poziomie ich zbierania, przetwarzania oraz agregacji. Celem artykułu jest zbadanie możliwości wykorzystania danych scrapowanych do analizy dynamiki cen zabawek, a w szczególności porównanie wyników uzyskanych za pomocą różnych formuł indeksowych. W opracowaniu przedstawiono wynik badania empirycznego na podstawie danych pochodzących z czterech sklepów (z 53 wybranych produktów sprzedawanych w Amazonie, Wallmarcie, Smarterkids oraz KBkids).
Web‑scraping is a technique used to automatically extract data from websites. After the rise‑up of on‑lines shopping (which results in more shops posting their full price offer on their websites) it allows to acquire information about prices of goods sold by the retailers such as supermarkets or internet shops. Usage of web‑scraped data allows to lower the costs, improve the measurement quality and monitor the price change in real time. Due to before mentioned reasons this method became the object of research studies from both statistical offices (Eurostat, British Office of National Statistics, Belgium Statbel) and universities (for ex. Billion Prices Project conducted on MIT). However, usage of scrapped data for the CPI calculation entails with multiple challenges with their collection, processing and aggregation. The purpose of this article is to examine the possibility of using scrapped data in toy price dynamic analysis. Especially the purpose is to compare the results from different inde Xformulas. In this article the empirical study based on data from 4 different shops is presented (53 chosen products sold in Amazon, Wallmart, Smarterkids and KBKids).
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2021, 1, 352; 25-37
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The evaluation of (big) data integration methods in tourism
Ocena metod integracji danych dotyczących turystyki z uwzględnieniem big data
Autorzy:
Cierpiał-Wolan, Marek
Stateva, Galya
Powiązania:
https://bibliotekanauki.pl/articles/31232009.pdf
Data publikacji:
2023-12-29
Wydawca:
Główny Urząd Statystyczny
Tematy:
data integration methods
tourism survey frame
web scraping
metody integracji danych
operat do badań turystyki
Opis:
In view of many dynamic changes taking place in the modern world due to the pandemic, the migration crisis, armed conflicts, etc., it is a huge challenge for official statistics to provide good-quality information, which should be available almost in real time. In this context, integration of data from multiple sources, in particular big data, is a prerequisite. The aim of the article is to characterise and evaluate the following selected methods of data integration in tourism statistics: Natural Language Processing (NLP), machine learning algorithm, i.e. K-Nearest Neighbours (K-NN) using TF-IDF and N-gram techniques, and Fuzzy Matching, belonging to probabilistic methods. In tourism surveys, data acquired using web scraping deserve special attention. For this reason, the analysed methods were used to combine data from booking portals (Booking.com, Hotels.com and Airbnb.com) with a tourism survey frame. An attempt was also made to answer the question of how the data obtained from web scraping of tourism portals improved the quality of the frame. The study showed that Fuzzy Matching based on the Levenshtein algorithm combined with Vincenty’s formula was the most effective among all tested methods. In addition, as a result of data integration, it was possible to significantly improve the quality of the tourism survey frame in 2023 (an increase in the number of new accommodation establishments in Poland by 1.1% and in Bulgaria by 1.4%).
W obliczu wielu dynamicznych zmian zachodzących we współczesnym świecie, spowodowanych m.in. pandemią COVID-19, kryzysem migracyjnym i konfliktami zbrojnymi, ogromnym wyzwaniem dla statystyki publicznej jest dostarczanie informacji dobrej jakości, które powinny być dostępne niemalże w czasie rzeczywistym. W tym kontekście warunkiem koniecznym jest integracja danych, w szczególności big data, pochodzących z wielu źródeł. Głównym celem badania omawianego w artykule jest charakterystyka i ocena wybranych metod integracji danych w statystyce w dziedzinie turystyki: przetwarzania języka naturalnego (Natural Language Processing – NLP), algorytmu uczenia maszynowego, tj. K-najbliższych sąsiadów (K-Nearest Neighbours – K-NN), z wykorzystaniem technik TF-IDF i N-gramów, oraz parowania rozmytego (Fuzzy Matching), należących do grupy metod probabilistycznych. W badaniach dotyczących turystyki na szczególną uwagę zasługują dane uzyskiwane za pomocą web scrapingu. Z tego powodu analizowane metody wykorzystano do łączenia danych pochodzących z portali rezerwacyjnych (Booking.com, Hotels.com i Airbnb.com) z operatem do badań turystyki. Posłużono się danymi dotyczącymi Polski i Bułgarii, pobranymi w okresie od kwietnia do lipca 2023 r. Podjęto także próbę odpowiedzi na pytanie, jak dane uzyskane z web scrapingu wpłynęły na poprawę jakości operatu. Z przeprowadzonego badania wynika, że najbardziej przydatne spośród testowanych metod jest parowanie rozmyte oparte na algorytmach Levenshteina i Vincenty’ego. Ponadto w wyniku integracji danych udało się znacząco poprawić jakość operatu do badań turystyki w 2023 r. . (wzrost liczby nowych obiektów w Polsce o 1,1%, a w Bułgarii – o 1,4%).
Źródło:
Wiadomości Statystyczne. The Polish Statistician; 2023, 68, 12; 25-48
0043-518X
Pojawia się w:
Wiadomości Statystyczne. The Polish Statistician
Dostawca treści:
Biblioteka Nauki
Artykuł
    Wyświetlanie 1-6 z 6

    Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies