Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "web data" wg kryterium: Wszystkie pola


Tytuł:
Current challenges and possible big data solutions for the use of web data as a source for official statistics
Współczesne wyzwania i możliwości w zakresie stosowania narzędzi big data do uzyskania danych webowych jako źródła dla statystyki publicznej
Autorzy:
Daas, Piet
Maślankowski, Jacek
Powiązania:
https://bibliotekanauki.pl/articles/31232088.pdf
Data publikacji:
2023-12-29
Wydawca:
Główny Urząd Statystyczny
Tematy:
big data
web data
websites
web scraping
dane webowe
strony internetowe
Opis:
Web scraping has become popular in scientific research, especially in statistics. Preparing an appropriate IT environment for web scraping is currently not difficult and can be done relatively quickly. Extracting data in this way requires only basic IT skills. This has resulted in the increased use of this type of data, widely referred to as big data, in official statistics. Over the past decade, much work was done in this area both on the national level within the national statistical institutes, and on the international one by Eurostat. The aim of this paper is to present and discuss current problems related to accessing, extracting, and using information from websites, along with the suggested potential solutions. For the sake of the analysis, a case study featuring large-scale web scraping performed in 2022 by means of big data tools is presented in the paper. The results from the case study, conducted on a total population of approximately 503,700 websites, demonstrate that it is not possible to provide reliable data on the basis of such a large sample, as typically up to 20% of the websites might not be accessible at the time of the survey. What is more, it is not possible to know the exact number of active websites in particular countries, due to the dynamic nature of the Internet, which causes websites to continuously change.
Web scraping jest coraz popularniejszy w badaniach naukowych, zwłaszcza w dziedzinie statystyki. Przygotowanie środowiska do scrapowania danych nie przysparza obecnie trudności i może być wykonane relatywnie szybko, a uzyskiwanie informacji w ten sposób wymaga jedynie podstawowych umiejętności cyfrowych. Dzięki temu statystyka publiczna w coraz większym stopniu korzysta z dużych wolumenów danych, czyli big data. W drugiej dekadzie XXI w. zarówno krajowe urzędy statystyczne, jak i Eurostat włożyły dużo pracy w doskonalenie narzędzi big data. Nadal istnieją jednak trudności związane z dostępnością, ekstrakcją i wykorzystywaniem informacji pobranych ze stron internetowych. Tym problemom oraz potencjalnym sposobom ich rozwiązania został poświęcony niniejszy artykuł. Omówiono studium przypadku masowego web scrapingu wykonanego w 2022 r. za pomocą narzędzi big data na próbie 503 700 stron internetowych. Z analizy wynika, że dostarczenie wiarygodnych danych na podstawie tak dużej próby jest niemożliwe, ponieważ w czasie badania zwykle do 20% stron internetowych może być niedostępnych. Co więcej, dokładna liczba aktywnych stron internetowych w poszczególnych krajach nie jest znana ze względu na dynamiczny charakter Internetu, skutkujący ciągłymi zmianami stron internetowych.
Źródło:
Wiadomości Statystyczne. The Polish Statistician; 2023, 68, 12; 49-64
0043-518X
Pojawia się w:
Wiadomości Statystyczne. The Polish Statistician
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The evaluation of (big) data integration methods in tourism
Ocena metod integracji danych dotyczących turystyki z uwzględnieniem big data
Autorzy:
Cierpiał-Wolan, Marek
Stateva, Galya
Powiązania:
https://bibliotekanauki.pl/articles/31232009.pdf
Data publikacji:
2023-12-29
Wydawca:
Główny Urząd Statystyczny
Tematy:
data integration methods
tourism survey frame
web scraping
metody integracji danych
operat do badań turystyki
Opis:
In view of many dynamic changes taking place in the modern world due to the pandemic, the migration crisis, armed conflicts, etc., it is a huge challenge for official statistics to provide good-quality information, which should be available almost in real time. In this context, integration of data from multiple sources, in particular big data, is a prerequisite. The aim of the article is to characterise and evaluate the following selected methods of data integration in tourism statistics: Natural Language Processing (NLP), machine learning algorithm, i.e. K-Nearest Neighbours (K-NN) using TF-IDF and N-gram techniques, and Fuzzy Matching, belonging to probabilistic methods. In tourism surveys, data acquired using web scraping deserve special attention. For this reason, the analysed methods were used to combine data from booking portals (Booking.com, Hotels.com and Airbnb.com) with a tourism survey frame. An attempt was also made to answer the question of how the data obtained from web scraping of tourism portals improved the quality of the frame. The study showed that Fuzzy Matching based on the Levenshtein algorithm combined with Vincenty’s formula was the most effective among all tested methods. In addition, as a result of data integration, it was possible to significantly improve the quality of the tourism survey frame in 2023 (an increase in the number of new accommodation establishments in Poland by 1.1% and in Bulgaria by 1.4%).
W obliczu wielu dynamicznych zmian zachodzących we współczesnym świecie, spowodowanych m.in. pandemią COVID-19, kryzysem migracyjnym i konfliktami zbrojnymi, ogromnym wyzwaniem dla statystyki publicznej jest dostarczanie informacji dobrej jakości, które powinny być dostępne niemalże w czasie rzeczywistym. W tym kontekście warunkiem koniecznym jest integracja danych, w szczególności big data, pochodzących z wielu źródeł. Głównym celem badania omawianego w artykule jest charakterystyka i ocena wybranych metod integracji danych w statystyce w dziedzinie turystyki: przetwarzania języka naturalnego (Natural Language Processing – NLP), algorytmu uczenia maszynowego, tj. K-najbliższych sąsiadów (K-Nearest Neighbours – K-NN), z wykorzystaniem technik TF-IDF i N-gramów, oraz parowania rozmytego (Fuzzy Matching), należących do grupy metod probabilistycznych. W badaniach dotyczących turystyki na szczególną uwagę zasługują dane uzyskiwane za pomocą web scrapingu. Z tego powodu analizowane metody wykorzystano do łączenia danych pochodzących z portali rezerwacyjnych (Booking.com, Hotels.com i Airbnb.com) z operatem do badań turystyki. Posłużono się danymi dotyczącymi Polski i Bułgarii, pobranymi w okresie od kwietnia do lipca 2023 r. Podjęto także próbę odpowiedzi na pytanie, jak dane uzyskane z web scrapingu wpłynęły na poprawę jakości operatu. Z przeprowadzonego badania wynika, że najbardziej przydatne spośród testowanych metod jest parowanie rozmyte oparte na algorytmach Levenshteina i Vincenty’ego. Ponadto w wyniku integracji danych udało się znacząco poprawić jakość operatu do badań turystyki w 2023 r. . (wzrost liczby nowych obiektów w Polsce o 1,1%, a w Bułgarii – o 1,4%).
Źródło:
Wiadomości Statystyczne. The Polish Statistician; 2023, 68, 12; 25-48
0043-518X
Pojawia się w:
Wiadomości Statystyczne. The Polish Statistician
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The use of web-GIS and crowdsourcing in the acquisition of historical data on the example of Polegli1939 project
Autorzy:
Zawadzki, Mateusz
Stadnicka, Maria
Lupa, Michał
Adamek, Katarzyna
Powiązania:
https://bibliotekanauki.pl/articles/31348307.pdf
Data publikacji:
2023-11-26
Wydawca:
Oddział Kartograficzny Polskiego Towarzystwa Geograficznego
Tematy:
Historical GIS
GeoWeb
Volunteered Geographic Information
historical data
Opis:
The historical Polegli1939 geoportal is probably the first thematic portal using spatial-temporal databases to present information on people killed during the World War II. In this study, we address the problem of capturing, processing and sharing historical information by supplementing it with a spatial attributes. The aim of the study is to determine the role of crowdsourcing data and the use of web-GIS applications in the process of obtaining and verifying historical information. The study was carried out as part of the implementation of the “Spatial database of soldiers killed in warfare” project, which is also known as Polegli1939. In order to achieve this goal, we acquired information using three methods: manual, automated and Volunteered Geographic Information (VGI). Making spatial data available through the Polegli1939 geoportal enables users to popularize and verify it. The method includes a geospatial web platform (GeoWeb) as well as a VGI application with an integrated process for verifying submitted information. As a result of the project, nearly 35,000 records were obtained. Making the project available to a wider audience opens up the possibility of extending the presented research or replicating it in other countries, taking into account a wider chronological range than just World War II.
Źródło:
Polish Cartographical Review; 2023, 55, 1; 56-72
2450-6974
Pojawia się w:
Polish Cartographical Review
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The use of web-scraped data to analyse the dynamics of clothing and footwear prices
Wykorzystanie danych scrapowanych do analizy dynamiki cen odzieży i obuwia
Autorzy:
Juszczak, Adam
Powiązania:
https://bibliotekanauki.pl/articles/28408209.pdf
Data publikacji:
2023-09-29
Wydawca:
Główny Urząd Statystyczny
Tematy:
inflation
web scraping
online shopping
GEKS-J
inflacja
zakupy online
Opis:
Web scraping is a technique that makes it possible to obtain information from websites automatically. As online shopping grows in popularity, it became an abundant source of information on the prices of goods sold by retailers. The use of scraped data usually allows, in addition to a significant reduction of costs of price research, the improvement of the precision of inflation estimates and real-time tracking. For this reason, web scraping is a popular research tool both for statistical centers (Eurostat, British Office of National Statistics, Belgian Statbel) and universities (e.g. the Billion Prices Project conducted at Massachusetts Institute of Technology). However, the use of scraped data to calculate inflation brings about many challenges at the stage of their collection, processing, and aggregation. The aim of the study is to compare various methods of calculating price indices of clothing and footwear on the basis of scraped data. Using data from one of the largest online stores selling clothing and footwear for the period of February 2018–November 2019, the author compared the results of the Jevons chain index, the GEKS-J index and the GEKS-J expanding and updating window methods. As a result of the calculations, a high chain index drift was confirmed, and very similar results were found using the extension methods and the updated calculation window (excluding the FBEW method).
Web scraping to technika pozwalająca automatycznie pobierać informacje zamieszczone na stronach internetowych. Wraz ze wzrostem popularności zakupów online stała się ona ważnym źródłem informacji o cenach dóbr sprzedawanych przez detalistów. Wykorzystanie danych scrapowanych na ogół nie tylko pozwala znacząco obniżyć koszty badania cen, lecz także poprawia precyzję szacunków inflacji i umożliwia śledzenie jej w czasie rzeczywistym. Z tego względu web scraping jest dziś popularną techniką badań prowadzonych zarówno w ośrodkach statystycznych (Eurostat, brytyjski Office of National Statistics, belgijski Statbel), jak i na uniwersytetach (m.in. Billion Prices Project realizowany na Massachusetts Institute of Technology). Zastosowanie danych scrapowanych do obliczania inflacji wiąże się jednak z wieloma wyzwaniami na poziomie ich zbierania, przetwarzania oraz agregacji. Celem badania omawianego w artykule jest porównanie różnych metod obliczania indeksów cen odzieży i obuwia wykorzystujących dane scrapowane. Na podstawie danych z jednego z największych sklepów internetowych zajmujących się sprzedażą odzieży i obuwia za okres od lutego 2018 r. do listopada 2019 r. porównano wyniki indeksu łańcuchowego Jevonsa, indeksu GEKS-J oraz indeksów GEKS-J z użyciem metod rozszerzenia i aktualizowania okna obliczeń. Potwierdzono wysokie obciążenie dryfem łańcuchowym, a ponadto stwierdzono bardzo podobne wyniki przy użyciu metod rozszerzenia i aktualizowania okna obliczeń (z wyłączeniem metody FBEW).
Źródło:
Wiadomości Statystyczne. The Polish Statistician; 2023, 68, 9; 15-33
0043-518X
Pojawia się w:
Wiadomości Statystyczne. The Polish Statistician
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A Python library for the Jupyteo IDE Earth observation processing tool enabling interoperability with the QGIS System for use in data science
Autorzy:
Bednarczyk, Michał
Powiązania:
https://bibliotekanauki.pl/articles/2055774.pdf
Data publikacji:
2022
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
Earth observation data processing
IDE
IPython
Jupyter notebook
web processing service
GIS
data science
machine learning
API
Opis:
This paper describes JupyQgis – a new Python library for Jupyteo IDE enabling interoperability with the QGIS system. Jupyteo is an online integrated development environment for earth observation data processing and is available on a cloud platform. It is targeted at remote sensing experts, scientists and users who can develop the Jupyter notebook by reusing embedded open-source tools, WPS interfaces and existing notebooks. In recent years, there has been an increasing popularity of data science methods that have become the focus of many organizations. Many scientific disciplines are facing a significant transformation due to data-driven solutions. This is especially true of geodesy, environmental sciences, and Earth sciences, where large data sets, such as Earth observation satellite data (EO data) and GIS data are used. The previous experience in using Jupyteo, both among the users of this platform and its creators, indicates the need to supplement its functionality with GIS analytical tools. This study analyzed the most efficient way to combine the functionality of the QGIS system with the functionality of the Jupyteo platform in one tool. It was found that the most suitable solution is to create a custom library providing an API for collaboration between both environments. The resulting library makes the work much easier and simplifies the source code of the created Python scripts. The functionality of the developed solution was illustrated with a test use case.
Źródło:
Geomatics and Environmental Engineering; 2022, 16, 1; 117--144
1898-1135
Pojawia się w:
Geomatics and Environmental Engineering
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Improving the university recruitment process with web analytics
Autorzy:
Wiechetek, Łukasz
Mędrek, Marek
Powiązania:
https://bibliotekanauki.pl/articles/27313747.pdf
Data publikacji:
2022
Wydawca:
Politechnika Śląska. Wydawnictwo Politechniki Śląskiej
Tematy:
data science
data science education
e-marketing
web analytics
heatmap
recruitment
nauka o danych
edukacja z zakresu danych
analityka internetowa
mapy ciepła
rekrutacja
Opis:
Purpose: The main aim of the article is to know the information needs of candidates for university courses and indicate the importance of web analytics tools in the university recruitment process. The authors present the recruitment process for data science high study programme that was conducted in the middle of 2021 at one of the biggest universities in eastern Poland. Theoretical background: Digital transformation is an irreversible process today. Data produced by people, things, administration units and business organizations can be the source of valuable information. That transformation causes new possibilities for fast development, but also creates challenges for education processes and professional work. Furthermore, the digital transformation resulted in creating new professions like data science (DS). Because of data volume and its importance DS professionals became one of the most wanted specialists in the 21st century, and therefore many universities try to launch new study programs related to automated data processing and try to get the attention of potential students. Design/methodology/approach: The process was supported with analytics tools Hotjar and Google Analytics. The results presented in the paper base on the analysis of 974 pageviews recorded by Hotjar and activity of 824 page users reported by Google Analytics. Findings: The analysis showed that web analytics tools are very easy to use in the recruitment process, and that gathered data allows for better understanding of candidates' needs and improving the future requirement processes and tools. Results indicated that the most important topics for candidates were study programme and payment. Form the technical point of view the responsiveness of applications used for the recruitment process is crucial because a lot of traffic was generated by both users of desktop computers and mobile devices. The greatest interest in the program was recorded before the holiday months. Originality/value: The research contributes to academia in the field of recruitment. Paper presents the data science high study programme and indicates the importance of web analytics tools in the university recruitment process.
Źródło:
Zeszyty Naukowe. Organizacja i Zarządzanie / Politechnika Śląska; 2022, 158; 679--695
1641-3466
Pojawia się w:
Zeszyty Naukowe. Organizacja i Zarządzanie / Politechnika Śląska
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Scientometric and Bibliometric Analysis in Analytical Marketing Research
Autorzy:
Więcek-Janka, Ewa
Szewczuk, Sandra
Powiązania:
https://bibliotekanauki.pl/articles/2168352.pdf
Data publikacji:
2022
Wydawca:
Uniwersytet Marii Curie-Skłodowskiej. Wydawnictwo Uniwersytetu Marii Curie-Skłodowskiej
Tematy:
analytical marketing
financial marketing
data-driven marketing
Web of Science
VOSviewer
Opis:
Theoretical background: Analytical marketing is at the heart of scientific research because it plays an important role in building the competitiveness of enterprises and is an opportunity for them to grow.Purpose of the article: The aim of the article is to present the results of a bibliometric analysis of the developing area of analytical marketing.Research methods: For this purpose, specialist journals published between 1900 and 2021 were searched in the Web of Science database. The scientometric analyses carried out on their basis concern the number of publications, authorship and co-authorship, the number of citations, journals, thematic categories, institutions, countries and keywords. Over 200 publications cited 2,563 times were analyzed.Main findings: The concept of analytical marketing was taken into account by over 400 authors, with Maria Petrescu authoring the highest number of publications, and Michel Wedel being the most significant author due to the number of citations. An important role, due to the number of publications in this area, is played by institutions based in the USA (over 50%), including the University of Nevada, Las Vegas (UNLV) and the Nevada System of Higher Education (NSHE). What is more, the conducted research emphasizes the importance of marketing analytics and presents benefits that stem from using it.
Źródło:
Annales Universitatis Mariae Curie-Skłodowska, sectio H – Oeconomia; 2022, 56, 1; 143-167
0459-9586
2449-8513
Pojawia się w:
Annales Universitatis Mariae Curie-Skłodowska, sectio H – Oeconomia
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Web data scraping for digital public relations analysis based on the example of companies installing photovoltaic systems
Autorzy:
Zdonek, Dariusz
Powiązania:
https://bibliotekanauki.pl/articles/27313485.pdf
Data publikacji:
2022
Wydawca:
Politechnika Śląska. Wydawnictwo Politechniki Śląskiej
Tematy:
digital public relations
Polska
cities
photovoltaics
web scraping
cyfrowe public relations
Polska
miasta
fotowoltaika
Opis:
Purpose: The first objective of this article was an attempt at identifying the major differences between such terms as public relations (PR), digital public relations (DPR) and digital marketing (DM). The second objective was to employ selected web data scraping techniques to analyse DPR of service providers installing photovoltaic systems. Design/methodology/approach: The first objective of this article was achieved by analysing reference works. To achieve the second objective, the author used MS Excel, web scraping and proprietary computer scripts in R and Python. In this way, selected details were obtained from the companies catalogue at panoramafirm.pl and Google search engine, and then the received results were compared and analysed. What is more, the results from Google search engine were obtained and analysed for 964 towns and cities entered in the engine with the “photovoltaics” phrase. Findings: 50 thousand URLs were obtained and 1,755 unique website domain addresses were extracted. Analysing the content of websites at the obtained Internet domains, 6 major categories of websites were identified, which appeared in the first 10 search results for the photovoltaic-related queries. These are: Company Websites (CW), Blog Websites (BW), Announcement Services (AS), SEO Landing Pages (SLP), Public Announcement Pages (PAP) and Social Media Page (SMP). Each of these categories is characterised briefly and a few examples are provided for each of them. Research limitations/implications: The limitations of this article include the focus on one companies catalogue, i.e., panoramafirm.pl, and the results from Google search engine solely for the Polish language. Moreover, only the results of the first 10 links from Google engine for the single “photovoltaics” phrase and town/city name were taken into consideration. Originality/value: This article has a theoretical and practical value. The analysis allowed to identify six categories of websites, which may be analysed with respect to digital public relations in the area of photovoltaic system installation. The most important of them are the websites belonging to the Company Website (CW) and Social Media Page (SMP) types. This article is addressed to anyone interested in obtaining data from the Internet using web scraping technique and data analysis in the area of digital public relations (DPR).
Źródło:
Zeszyty Naukowe. Organizacja i Zarządzanie / Politechnika Śląska; 2022, 161; 365--380
1641-3466
Pojawia się w:
Zeszyty Naukowe. Organizacja i Zarządzanie / Politechnika Śląska
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Porównanie cen i wskaźników cen konsumpcyjnych: tradycyjna metoda uzyskiwania danych a źródła alternatywne
Comparison of prices and consumer price indices: traditional data collection and alternative data sources
Autorzy:
Białek, Jacek
Dominiczak-Astin, Alina
Turek, Dorota
Powiązania:
https://bibliotekanauki.pl/articles/1813758.pdf
Data publikacji:
2021-09-30
Wydawca:
Główny Urząd Statystyczny
Tematy:
wskaźniki cen
dane skanowane
dane skrapowane
inflacja
price indices
scanner data
web scraped data
inflation
Opis:
Jednym z większych wyzwań stojących przed statystyką publiczną w XXI w. jest wykorzystanie alternatywnych źródeł danych o cenach w celu unowocześnienia statystyki cen konsumpcyjnych, a w rezultacie – zwiększenia dokładności i rzetelności danych o inflacji. Trudności w zbieraniu danych metodą tradycyjną spowodowane przez COVID-19 (obostrzenia dotyczące utrzymywania dystansu, które ograniczyły wyjścia ankieterów w teren, i zamykanie punktów sprzedaży) wpłynęły na zintensyfikowanie prac nad alternatywnymi źródłami danych. W artykule przedstawiono wyniki badania eksperymentalnego, w którym wykorzystano dane o cenach uzyskane metodą tradycyjną (przez ankieterów) oraz dane skanowane i skrapowane, pochodzące z sieci handlowej działającej w Polsce. Głównym celem badania było określenie występowania i oszacowanie wielkości różnic w poziomie cen i wartościach wskaźnika cen wybranych produktów spożywczych obliczonych metodą tradycyjną oraz z wykorzystaniem alternatywnych źródeł danych, czyli danych skanowanych i skrapowanych. Za dodatkowy cel postawiono sobie zidentyfikowanie przyczyn tych różnic w odniesieniu do specyfiki źródeł danych. Badaniem empirycznym objęto luty i marzec 2021 r. Wyniki otrzymane na podstawie danych z różnych źródeł porównano za pomocą metod graficznych (histogramy, wykresy pudełkowe) oraz wyznaczenia elementarnych indeksów według formuł Dutota, Carliego i Jevonsa. Wyniki wskazały na rozbieżności – niekiedy znaczne – w rozkładach cen uzyskanych z różnych źródeł danych, co skłania do wniosku, że zastosowanie danych skanowanych i skrapowanych może prowadzić do zawyżania lub zaniżania wskaźników cen uzyskanych metodą tradycyjną. W artykule omówiono również podstawowe aspekty metodologiczne dotyczące uzyskiwania i wykorzystywania danych ze źródeł alternatywnych oraz wskazano prawdopodobne przyczyny różnic, jakie zaobserwowano zarówno w rozkładach cen produktów, jak i w wartościach miesięcznego wskaźnika cen obliczonego przy wykorzystaniu danych z różnych źródeł.
One of the major challenges official statistics is faced with in the 21st century is the use of alternative sources of price data in order to modernise consumer price statistics and, as a result, to improve the accuracy and reliability of inflation data. Data collecting based on the traditional method encountered numerous difficulties caused by COVID-19 (distance-keeping restrictions limiting price collectors’ fieldwork, closures of points of sale). As a consequence, the work on alternative data sources intensified. The article presents the results of an experimental study involving the use of prices collected by means of the traditional method (by price collectors), and scanner and web scraped data from one of the retail chains operating in Poland. The aim of the study was to investigate the occurrence of differences in prices and price indices of selected food products and to estimate them, using the traditional method and alternative data sources, i.e. scanner and web scraped data. An additional goal was set to identify sourcebased reasons for these differences. The empirical study covered the period of February and March 2021. The results based on data from different sources were compared using both graphical methods (histograms, box plots) and the calculation of elementary price indices according to the Dutot, Carli and Jevons formulas. The findings revealed certain, sometimes serious discrepancies in the distributions of prices obtained from various data sources, which suggests that the application of scanner and web scraped data may lead to the over- and understating of price indices obtained via the traditional method. The article also discusses the main methodological aspects of obtaining and applying data from alternative sources, and indicates the probable causes of the differences observed both in distributions of product prices and in monthly price indices calculated using data from various sources.
Źródło:
Wiadomości Statystyczne. The Polish Statistician; 2021, 66, 9; 32-69
0043-518X
Pojawia się w:
Wiadomości Statystyczne. The Polish Statistician
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Strona internetowa jako źródło historyczne
The web page as a historical source
Autorzy:
Wilkowski, Marcin
Powiązania:
https://bibliotekanauki.pl/articles/2080755.pdf
Data publikacji:
2021
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
World Wide Web
historiography
sources
web archives
data
historiografia
źródła
archiwa Webu
dane
Nauki Humanistyczne i Społeczne
Opis:
A web page can be a useful object of analysis in historical research on the World Wide Web, but as a historical source, it does not have to be interpreted solely by its textual and visual strata. The article proposes an inclusive definition of the web page which ignores its visual content and relies on its non‑obvious elements (HTTP headers and response type, URI identifier), which can be successfully used in historical study. The modular nature of the web page is the cause of many problems in building its chronology or accessing archival versions; on the other hand, it makes it possible to gain new information about the past reality. The development of Web historiography is a condition for building the historicity of the medium referred to as the"eternal now" Such historiography relies strongly on software as a tool for producing historical sources and sometimes needs to explore new time dimensions like the stream or liveness. The article explores these issues by referencing media theory and web archiving works as well as several research projects from the field of the digital humanities. Can a historiographical approach to sources inspire criticism on digital artefacts and data outside the field?
Źródło:
Historyka studia metodologiczne; 2021, 51; 83-110
0073-277X
Pojawia się w:
Historyka studia metodologiczne
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The use of web-scraped data to analyze the dynamics of footwear prices
Autorzy:
Juszczak, Adam
Powiązania:
https://bibliotekanauki.pl/articles/2027264.pdf
Data publikacji:
2021
Wydawca:
Uniwersytet Ekonomiczny w Katowicach
Tematy:
Big data
Consumer Price Index
Inflation
Online shopping
Web-scraping
Opis:
Aim/purpose – Web-scraping is a technique used to automatically extract data from websites. After the rise-up of online shopping, it allows the acquisition of information about prices of goods sold by retailers such as supermarkets or internet shops. This study examines the possibility of using web-scrapped data from one clothing store. It aims at comparing known price index formulas being implemented to the web-scraping case and verifying their sensitivity on the choice of data filter type. Design/methodology/approach – The author uses the price data scrapped from one of the biggest online shops in Poland. The data were obtained as part of eCPI (electronic Consumer Price Index) project conducted by the National Bank of Poland. The author decided to select three types of products for this analysis – female ballerinas, male shoes, and male oxfords to compare their prices in over one-year time period. Six price indexes were used for calculation – The Jevons and Dutot indexes with their chain and GEKS (acronym from the names of creators – Gini–Éltető–Köves–Szulc) versions. Apart from the analysis conducted on a full data set, the author introduced filters to remove outliers. Findings – Clothing and footwear are considered one of the most difficult groups of goods to measure price change indexes due to high product churn, which undermines the possibility to use the traditional Jevons and Dutot indexes. However, it is possible to use chained indexes and GEKS indexes instead. Still, these indexes are fairly sensitive to large price changes. As observed in case of both product groups, the results provided by the GEKS and chained versions of indexes were different, which could lead to conclusion that even though they are lending promising results, they could be better suited for other COICOP (Classification of Individual Consumption by Purpose) groups. Research implications/limitations – The findings of the paper showed that usage of filters did not significantly reduce the difference between price indexes based on GEKS and chain formulas. Originality/value/contribution – The usage of web-scrapped data is a fairly new topic in the literature. Research on the possibility of using different price indexes provides useful insights for future usage of these data by statistics offices.
Źródło:
Journal of Economics and Management; 2021, 43; 251-269
1732-1948
Pojawia się w:
Journal of Economics and Management
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Zastosowanie danych scrapowanych w pomiarze dynamiki cen
Autorzy:
Juszczak, Adam
Powiązania:
https://bibliotekanauki.pl/articles/1033541.pdf
Data publikacji:
2021-03-02
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
inflacja
CPI
web‑scraping
Jevons
Dutot
GEKS‑J
GEKS‑D
łańcuchowy Jevons
łańcuchowy Dutot
zakupy on‑line
big data
inflation
Web‑scraping
Chained Jevons
online shopping
Big data
Opis:
Web‑scraping to technika, którą można wykorzystać do automatycznego pozyskiwania danych zamieszczonych na stronach internetowych. Wraz ze wzrostem popularności zakupów on‑line coraz więcej sklepów i usługodawców zainwestowało w strony WWW z ofertą cenową. Przekłada się to na możliwość automatycznego ściągania przez badaczy cen detalistów z wielu branż, m.in. odzieżowej czy spożywczej. Wykorzystanie danych scrapowanych skutkuje nie tylko znaczącym obniżeniem kosztów badania cen, ale także poprawia precyzję szacunków inflacji i daje możliwość śledzenia jej w czasie rzeczywistym. Z tego względu web‑scraping jest dziś popularnym obiektem badań zarówno ośrodków statystycznych (Eurostat, brytyjski Office of National Statistics, belgijski Statbel), jak i uniwersytetów (m.in. Billion Prices Project prowadzony w Massachusetts Institute of Technology). Zastosowanie danych scrapowanych do liczenia inflacji wiąże się jednak z wieloma wyzwaniami na poziomie ich zbierania, przetwarzania oraz agregacji. Celem artykułu jest zbadanie możliwości wykorzystania danych scrapowanych do analizy dynamiki cen zabawek, a w szczególności porównanie wyników uzyskanych za pomocą różnych formuł indeksowych. W opracowaniu przedstawiono wynik badania empirycznego na podstawie danych pochodzących z czterech sklepów (z 53 wybranych produktów sprzedawanych w Amazonie, Wallmarcie, Smarterkids oraz KBkids).
Web‑scraping is a technique used to automatically extract data from websites. After the rise‑up of on‑lines shopping (which results in more shops posting their full price offer on their websites) it allows to acquire information about prices of goods sold by the retailers such as supermarkets or internet shops. Usage of web‑scraped data allows to lower the costs, improve the measurement quality and monitor the price change in real time. Due to before mentioned reasons this method became the object of research studies from both statistical offices (Eurostat, British Office of National Statistics, Belgium Statbel) and universities (for ex. Billion Prices Project conducted on MIT). However, usage of scrapped data for the CPI calculation entails with multiple challenges with their collection, processing and aggregation. The purpose of this article is to examine the possibility of using scrapped data in toy price dynamic analysis. Especially the purpose is to compare the results from different inde Xformulas. In this article the empirical study based on data from 4 different shops is presented (53 chosen products sold in Amazon, Wallmart, Smarterkids and KBKids).
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2021, 1, 352; 25-37
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Bike-sharing system in Poznan – what will Web API data tell us?
System rowerów miejskich w Poznaniu - co nam powiedzą dane z Web API?
Autorzy:
Dzięcielski, Michał
Radzimski, Adam
Woźniak, Marcin
Powiązania:
https://bibliotekanauki.pl/articles/2089635.pdf
Data publikacji:
2020
Wydawca:
Uniwersytet Gdański. Komisja Geografii Komunikacji Polskiego Towarzystwa Geograficznego
Tematy:
bike-sharing
cycling
mobility
big data
Poznań
system rowerów miejskich
zbiór danych duży
Opis:
Bike-sharing systems, also known as public bicycles, are among the most dynamically developing mobility solutions in contemporary cities. In the past decade, numerous Polish cities hoping to increase the modal share of cycling have also adopted bike-sharing. Such systems continuously register user movements through installed sensors. The resulting database allows a highly detailed representation of this segment of urban mobility. This article illustrates how a database accessed via a Web API (Web Application Programming Interface) could be used to investigate the spatial distribution of trips, using the case study of Poznań, the fifth-largest city in Poland. Using geographical information systems, we identify the hot spots of bike-sharing as well as areas with low usage. The research procedure outlined in the paper provides knowledge that allows better responding to users’ needs.
Źródło:
Prace Komisji Geografii Komunikacji PTG; 2020, 23(3); 29-40
1426-5915
2543-859X
Pojawia się w:
Prace Komisji Geografii Komunikacji PTG
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A web-based electronic data interchange as supplier and assembly interface
Autorzy:
Yunitarini, Rika
Pratikto, -
Santoso, Purnomo Budi
Sugiono, -
Powiązania:
https://bibliotekanauki.pl/articles/952859.pdf
Data publikacji:
2019
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
electronic data interchange
production outsourcing
supplier
assembly
communication
Opis:
In the assembly industry, almost all components are outsourced or transferred to other parties, in order to meet the need for supply. This is referred as outsourcing of production. The outsourcing of assembly product components is based on a relationship model between the contractor and the industry. However, there is no relationship or communication pattern between the contractor or supplier and the assembler. Hence, in order to accelerate line production and overcome problems with assembly components, the communication path is shortened by providing a direct communication channel between the assembler and the supplier or contractor, in order to communicate any problems that arise during the assembly process by internal communication within the industry. The purpose of this study is the design and development of a web-based software application electronic data interchange (EDI) that can be used as a tool for communication between the assembler and supplier. The EDI application provides formal communication between the assembly industry and the contractor providing the components or parts needed in the assembly process. The main purpose of using EDI technology is to help the assembler to communicate the relevant documents to suppliers quickly, accurately and efficiently. The documents to be communicated are in the form of reports or claims, and are related to non-conformities, errors and component difficulties arising during the assembly process. This research novelty is providing direct communication between assembly and supplier by using EDI application that can give contribution in manufacturing area so it can accelerate the line production in assembly.
Źródło:
Management and Production Engineering Review; 2019, 10, 4; 65-71
2080-8208
2082-1344
Pojawia się w:
Management and Production Engineering Review
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Application of data mining techniques to find relationships between the dishes offered by a restaurant for the elaboration of combos based on the preferences of the diners
Autorzy:
Vazquez, Rosa Maria
Bonilla, Edmundo
Sanchez, Eduardo
Atriano, Oscar
Berruecos, Cinthya
Powiązania:
https://bibliotekanauki.pl/articles/118001.pdf
Data publikacji:
2019
Wydawca:
Polskie Towarzystwo Promocji Wiedzy
Tematy:
data mining
association rules
apriori algorithm
combos
Web Service
eksploracja danych
reguły asocjacji
algorytm a priori
kombinacje
Opis:
Currently, blended food has been a common menu item in fast food restaurants. The sales of the fast-food industry grow thanks to several sales strategies, including the “combos”, so, specialty, regional, family and buffet restaurants are even joining combos’ promotions. This research paper presents the implementation of a system that will serve as support to elaborate combos according to the preferences of the diners using data mining techniques to find relationships between the different dishes that are offered in a restaurant. The software resulting from this research is being used by the mobile application Food Express, with which it communicates through webservices. References
Źródło:
Applied Computer Science; 2019, 15, 2; 73-88
1895-3735
Pojawia się w:
Applied Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies