Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "Text data" wg kryterium: Temat


Tytuł:
Crowdsourcing in rescue fire service - proposed application
Autorzy:
Mirończuk, Marcin
Powiązania:
https://bibliotekanauki.pl/articles/41204253.pdf
Data publikacji:
2011
Wydawca:
Uniwersytet Kazimierza Wielkiego w Bydgoszczy
Tematy:
crowdsourcing
design of information system
information system
text data mining
exploratory analysis of text data
text analyzing
Opis:
This article describes the author's proposal to apply crowdsourcing in Polish rescue fire service. This article also describes basic principles for implementing an crowdsourcing information platform in rescue fire service as well as the scheme of its implementation. The Author of this paper also describes the genesis of this proposal related to the evaluation of research conducted by the author on text mining analysis and extraction of information in the design of information systems.
Źródło:
Studia i Materiały Informatyki Stosowanej; 2011, 5; 15-20
1689-6300
Pojawia się w:
Studia i Materiały Informatyki Stosowanej
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Wykorzystanie algorytmów Text Mininig do analizy danych tekstowych w psychologii
Usage of text mining algorithms to analyze textual data in psychology
Autorzy:
Szymańska, Agnieszka
Powiązania:
https://bibliotekanauki.pl/articles/475485.pdf
Data publikacji:
2017
Wydawca:
Polska Akademia Nauk. Instytut Języka Polskiego PAN
Tematy:
algorytmy
dane tekstowe
text mining
algorithms
text data
Opis:
W psychologii analizy danych zapisanych w postaci tekstów stanowią ważny element prac badawczych. Niemniej nadal poszukuje się narzędzi, metod, które mogą umożliwić szybką analizę danych zarejestrowanych w postaci tekstów, gdyż analizy te są najczęściej bardzo czasochłonne. W prezentowanym artykule przybliżono metodę text mining, która ma szczególne zastosowanie w analizie informacji zapisanych w postaci danych tekstowych. Wykorzystanie metody text mining jest omawiane na przykładzie analizy obieranych przez rodziców celów wychowawczych.. W artykule przedstawiono sposób, w jaki algorytmy text mining: a) dokonują analizy tekstu przez zliczenie słów i nadanie im wag, b) przeprowadzają analizę relacji między słowami za pomocą składowych głównych (Principal Component Analysis), c) przekształcają dane słownew liczbowe, przygotowując zbiór danych do kolejnych obliczeń.
In the psychology the analysis of data written in the form of texts are an important element of research work. Nevertheless, tools are still sought, methods that can enable rapid analysis of data recorded in the form of texts, because these analyzes are usually very time consuming. This article approximates the text mining method, which is particularly applicable in the analysis of information recorded in the form of text data. Analysing textual data using text mining algorithms is shown on the example of parents’ choice of educational goals. The paper presents the way in which text mining algorithms: a) perform text analysis by counting words and weighting them, b) analyze relationships between words by means of Principal Component Analysis, c) convert verbal data into numerals by preparing a set data for subsequent calculations.
Źródło:
Socjolingwistyka; 2017, 31; 99-116
0208-6808
Pojawia się w:
Socjolingwistyka
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Medical text data anonymization
Autorzy:
Marciniak, M.
Mykowiecka, A.
Rychlik, P.
Powiązania:
https://bibliotekanauki.pl/articles/333126.pdf
Data publikacji:
2010
Wydawca:
Uniwersytet Śląski. Wydział Informatyki i Nauki o Materiałach. Instytut Informatyki. Zakład Systemów Komputerowych
Tematy:
dane tekstowe kliniczne
naturalne przetwarzanie tekstu
clinical text data
data de-identification
natural text processing
Opis:
The paper discusses a program for removing patient identification information from hospital discharge documents in order to make them available for scientific research e.g. information extraction system designing. The presented method allows de–anonymization of documents using a key–code file that is created on the basis of a patient‘s surname, forename and date of birth. Problems of normalization of crucial data used in the key–code file creation are presented.
Źródło:
Journal of Medical Informatics & Technologies; 2010, 16; 83-88
1642-6037
Pojawia się w:
Journal of Medical Informatics & Technologies
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Visualisation of nominal data – practical and theoretical remarks
Wizualizacja danych mierzonych na skali nominalnej – uwagi praktyczne i teoretyczne
Autorzy:
Mącik, Radosław
Powiązania:
https://bibliotekanauki.pl/articles/424833.pdf
Data publikacji:
2016
Wydawca:
Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu
Tematy:
Text data
nominal data
visualisation
word cloud
word tree
chord graph
correspondence analysis
Opis:
Nominal data, due to their nature, are often analysed statistically in a quite limited and traditional way. Usually they come from open-ended or simple/multiple choice questions. In typical research projects, such data are often presented in the form of more or less complex tables (including contingency tables) and standard charts. The author’s experience shows that such a visualisation is perceived as boring, especially by younger people, accustomed to the presentation of content in the form of infographics. The article presents examples of data analysis and a visualisation of the nominal data based on the results of the author’s research, including theoretical reflections on the techniques and tools used. The starting point is the raw text data from the responses to the open-ended questions subjected to analyses of the frequency of words and expressions, including its visualisation through word clouds. The next step is categorization and tabulation at the level of individual variables including the visualisation of categories, to assess the contingency between two nominal variables (or the nominal and the ordinal one), including visualising the relationships via chord diagrams and the correspondence analysis.
Źródło:
Econometrics. Ekonometria. Advances in Applied Data Analytics; 2016, 2 (52); 22-34
1507-3866
Pojawia się w:
Econometrics. Ekonometria. Advances in Applied Data Analytics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A comparative study for outlier detection methods in high dimensional text data
Autorzy:
Park, Cheong Hee
Powiązania:
https://bibliotekanauki.pl/articles/2201316.pdf
Data publikacji:
2023
Wydawca:
Społeczna Akademia Nauk w Łodzi. Polskie Towarzystwo Sieci Neuronowych
Tematy:
curse of dimensionality
dimension reduction
high dimensional text data
outlier detection
Opis:
Outlier detection aims to find a data sample that is significantly different from other data samples. Various outlier detection methods have been proposed and have been shown to be able to detect anomalies in many practical problems. However, in high dimensional data, conventional outlier detection methods often behave unexpectedly due to a phenomenon called the curse of dimensionality. In this paper, we compare and analyze outlier detection performance in various experimental settings, focusing on text data with dimensions typically in the tens of thousands. Experimental setups were simulated to compare the performance of outlier detection methods in unsupervised versus semisupervised mode and uni-modal versus multi-modal data distributions. The performance of outlier detection methods based on dimension reduction is compared, and a discussion on using k-NN distance in high dimensional data is also provided. Analysis through experimental comparison in various environments can provide insights into the application of outlier detection methods in high dimensional data.
Źródło:
Journal of Artificial Intelligence and Soft Computing Research; 2023, 13, 1; 5--17
2083-2567
2449-6499
Pojawia się w:
Journal of Artificial Intelligence and Soft Computing Research
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Geodesic distances for clustering linked text data
Autorzy:
Tekir, S.
Mansmann, F.
Keimer, D.
Powiązania:
https://bibliotekanauki.pl/articles/91737.pdf
Data publikacji:
2012
Wydawca:
Społeczna Akademia Nauk w Łodzi. Polskie Towarzystwo Sieci Neuronowych
Tematy:
clustering
geodesic distance
text data
k-means algorithm
cosine distance
k-harmonic means
microprecision values
Opis:
The quality of a clustering not only depends on the chosen algorithm and its parameters, but also on the definition of the similarity of two respective objects in a dataset. Applications such as clustering of web documents is traditionally built either on textual similarity measures or on link information. Due to the incompatibility of these two information spaces, combining these two information sources in one distance measure is a challenging issue. In this paper, we thus propose a geodesic distance function that combines traditional similarity measures with link information. In particular, we test the effectiveness of geodesic distances as similarity measures under the space assumption of spherical geometry in a 0-sphere. Our proposed distance measure is thus a combination of the cosine distance of the term-document matrix and some curvature values in the geodesic distance formula. To estimate these curvature values, we calculate clustering coefficient values for every document from the link graph of the data set and increase their distinctiveness by means of a heuristic as these clustering coefficient values are rough estimates of the curvatures. To evaluate our work, we perform clustering tests with the k-means algorithm on a subset of the EnglishWikipedia hyperlinked data set with both traditional cosine distance and our proposed geodesic distance. Additionally, taking inspiration from the unified view of the performance functions of k-means and k-harmonic means, min and harmonic average of the cosine and geodesic distances are taken in order to construct alternate distance forms. The effectiveness of our approach is measured by computing microprecision values of the clusters based on the provided categorical information of each article.
Źródło:
Journal of Artificial Intelligence and Soft Computing Research; 2012, 2, 3; 247-258
2083-2567
2449-6499
Pojawia się w:
Journal of Artificial Intelligence and Soft Computing Research
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Реалізація міжпредметних зв’язків для застосування комп’ютерних методів контент-аналізу
Implementation Interdisciplinary Relations for Application of Computer Methods Content Analysis
Autorzy:
Руденко, Юлія
Демиденко, Оксана
Powiązania:
https://bibliotekanauki.pl/articles/16647660.pdf
Data publikacji:
2022-12-31
Wydawca:
Wydawnictwo Adam Marszałek
Tematy:
соціологія
Контент-аналіз
інформатика
аналіз текстових даних
студенти коледжів
сontent analysis
sociology
computer science
text data analysis
students
Opis:
The article substantiates the importance of interdisciplinary connections between informatics and sociology, the expediency of studying computer methods of content analysis by college students. An analysis of theoretical sources has been implemented to understand the essence of the concepts of content analysis, computer methods of content analysis. Content analysis is considered as a method that allows you to study the objects, phenomena, processes and properties of social reality presented in text data. Content analysis includes processing, evaluation, and interpretation of the form, content of texts and sources of textual information. It is proved that computer software allows to automate and speed up this process, to avoid the subjectivity of the researcher’s judgments, and to increase the amount of information being processed. The article emphasizes the importance of mastering content analysis by students, since these skills will contribute to their ability to assess the properties of information flows, understanding the nature of information confrontation, the formation of critical, algorithmic thinking and information technology competence. The article describes a pedagogical experiment on the integration of sociology and computer science for college students. The purpose of the experiment is the development of computer methods of content analysis for sociological research. The experiment provides for the coordination of thematic plans of disciplines and the development of laboratory work in informatics for the experimental group. The topics of laboratory work on the use of individual computer methods for content analysis are outlined. The use of the MS WORD text editor for manual coding of text data and partial implementation of content analysis is provided; MS Excel spreadsheets for creating a content analysis matrix, calculating the frequency of various words in texts and further interpreting the content; a special automated package for content analysis QDA MINER (free LITE version). The features of the use of each of the programs, their resource potential and complexity are determined. Criteria for evaluating control sections (analytical reports) created by students at the beginning and at the end of the experiment have been developed. Criteria: manifestation of system effective knowledge; availability of reasonable conclusions; the presence of an attempt to adequately predict social phenomena; visualization of the results of content analysis. The results were measured and compared in dynamics, and the effectiveness of the implemented methods was analyzed. The effectiveness of the experiment was proved, which is confirmed by an increase in the average score in the experimental group compared to the control group. The article presents a statistically valid conclusion about the effectiveness of the proposed methods in the experimental group at a significance level of 0.05. Mathematical testing of statistical hypotheses about the reliability of the results was carried out using Student’s t-test for two independent samples.
У статті обґрунтовано важливість міждисциплінарних зв’язків інформатики та соціології, доцільність вивчення студентами коледжів комп’ютерних методів контент-аналізу. Здійснено аналіз теоретичних джерел для розуміння сутності понять контент-аналізу, комп’ютерних методів контент-аналізу. Контент-аналіз розглядається як метод, що дозволяє вивчати об’єкти, явища, процеси та властивості соціальної дійсності, представлені в текстових даних. Це обробка, оцінка та інтерпретація форми та змісту текстів та джерел інформації. Доведено, що комп’ютерна підтримка дозволяє автоматизувати та прискорити цей процес, уникнути суб’єктивності суджень дослідника, збільшити обсяг обробленої інформації. У статті підкреслюється важливість оволодіння студентами контент-аналізом, оскільки це сприятиме їх вмінню оцінювати властивості інформаційних потоків, розумінню природи інформаційного протистояння, формуванню критичного, алгоритмічного мислення та інформаційно-технологічній компетентності. У статті описано педагогічний експеримент з інтеграції соціології та інформатики для студентів коледжів, мета якого опанувати комп’ютерні методи контент-аналізу для соціологічних досліджень. В експерименті передбачено узгодження тематичних планів дисциплін та розробка лабораторних робіт з інформатики для експериментальної групи. Окреслено тематику лабораторних робіт відповідно до використання окремих комп’ютерних методів контент-аналізу. Передбачено використання текстового редактора MS WORD для ручного кодування текстових даних і часткової реалізації контент-аналізу; електронних таблиць MS Excel для створення матриці аналізу контенту, підрахунку частоти різних слів у текстах та подальшої інтерпретації змісту; спеціального автоматизованого пакету для аналізу контенту QDA MINER (безкоштовна версія LITE). Визначено особливості використання кожної з програм, їх ресурсний потенціал та складність. Розроблені критерії оцінювання контрольних робіт (аналітичних звітів), які створюють студенти на початку і наприкінці експерименту. Це такі критерії: прояв системних дієвих знань; наявність обґрунтованих висновків; наявність спроби адекватного прогнозування соціальних явищ; візуалізація результатів контент-аналізу. Здійснено вимірювання і порівняння результатів у динаміці та проаналізована ефективність впроваджених методів. Доведена ефективність експерименту, що підтверджується зростанням середніх балів в експериментальній групі порівняно з контрольною групою. У статті наведено статистично обґрунтований висновок про ефективність запропонованих методів у експериментальній групі на рівні значущості 0,05. Математична перевірка статистичних гіпотез щодо достовірності результатів реалізовано за допомогою t-критерію Стьюдента для двох незалежних вибірок.
Źródło:
Viae Educationis; 2022, 4; 65-73
2956-2856
Pojawia się w:
Viae Educationis
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Dozwolony użytek w zakresie eksploracji tekstów i danych w świetle Dyrektywy Parlamentu Europejskiego i Rady (UE) 2019/790
Autorzy:
Bagieńska-Masiota, Aleksandra
Powiązania:
https://bibliotekanauki.pl/articles/2056883.pdf
Data publikacji:
2022-06-09
Wydawca:
Uniwersytet Pedagogiczny im. Komisji Edukacji Narodowej w Krakowie
Tematy:
dozwolony użytek
eksploracja tekstów i danych
Text and Data Mining
Dyrektywa DSM
fair use
DSM Directive
Opis:
W artykule przeprowadzono analizę prawodawstwa europejskiego w zakresie eksploracji tekstów i danych na podstawie Dyrektywy Parlamentu Europejskiego i Rady (UE) 2019/790 w sprawie praw autorskich i pokrewnych na jednolitym rynku cyfrowym (Dyrektywa DSM). Przedmiotowa Dyrektywa wprowadziła dwa obligatoryjne wyjątki od istniejących na gruncie prawa europejskiego praw wyłącznych, na potrzeby eksploracji tekstów i danych (art. 3 i 4). Ponadto artykuł odpowiada na pytanie, czy i w jakim stopniu przepisy polskiego prawa autorskiego wymagają zmian dostosowawczych do porządku europejskiego w przedmiotowym zakresie.
The paper analyzes European legislation on text and data mining, based on Directive 2019/790 of the European Parliament and of the Council on Copyright and related rights in the Digital Single Market (DSM Directive). The Directive has introduced two mandatory exceptions to existing exclusive rights under European law for the purpose of text and data mining (Articles 3 and 4). Moreover, the article answers the question whether and to what extent the provisions of Polish copyright law require adjustment to the European order in this respect.
Źródło:
Annales Universitatis Paedagogicae Cracoviensis. Studia de Cultura; 2022, 14, 1; 118-128
2083-7275
Pojawia się w:
Annales Universitatis Paedagogicae Cracoviensis. Studia de Cultura
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Trenowanie wybranych modeli sztucznej inteligencji a uprawnienia twórców
Authors’ Rights in the Context of Selected Models for AI Training
Autorzy:
Bałos, Iga
Powiązania:
https://bibliotekanauki.pl/articles/476749.pdf
Data publikacji:
2019
Wydawca:
Krakowska Akademia im. Andrzeja Frycza Modrzewskiego
Tematy:
AI generated works
copyright; AI
text and data mining
eksploracja tekstów i danych
prawo autorskie
SI
sztuczna twórczość
Opis:
Artificial Intelligence (AI) is no longer about automatization of routine or repetitive tasks. Its application extends far beyond plain computational power and efficiency. “AI-generated works” is one of the most popular research areas in this filed. It raises the question about intelligent systems singularity and their true capability to perform human-like tasks. This article examines selected models for AI training which generate works mimicking the unique style of given artists provided their works serve as input data. Certain authors, perhaps especially writers, are reluctant to accept such forms of the exploitation of their works. Even though classification of AI-generated works is a challenge, significant legal issues arise at the earlier stage. Does text and data mining (TDM) infringe the copyright monopoly? Is using a collection of works of a single author as training data affects the lawfulness of a process? Are authors entitled, on the basis of their economic or moral rights, to oppose such practices?
Sztuczna inteligencja (SI) przestała być wykorzystywana jedynie w celu automatyzacji powtarzalnych czynności lub przeprowadzania zadań wymagających skrupulatności obliczeniowej. Szczególną ciekawość budzi funkcjonowanie SI prowadzące do uzyskania efektów, które dotąd były osiągalne jedynie dla człowieka. Wśród nich można wyróżnić m.in. wytwory posiadające cechy utworu. Artykuł odnosi się do szczególnego rodzaju trenowania SI, odbywającego się wyłącznie na podstawie utworów jednego twórcy, ze szczególnym uwzględnieniem procesów prowadzących do powstania wytworu „w stylu” danego twórcy. Niektórzy autorzy, zwłaszcza pisarze, nieprzychylnie odnoszą się do tego typu praktyk. Wątpliwości natury prawnej powstają już na etapie trenowania modelu SI. Czy eksploracja tekstów i danych (TDM) stanowi wkroczenie w monopol prawno-autorski? Czy trenowanie SI twórczością wyłącznie jednego twórcy wpływa na legalność procesu? Czy powołując się na autorskie prawa majątkowe lub osobiste, można zakazać wykorzystywania swojej twórczości do trenowania SI?
Źródło:
Studia Prawnicze: rozprawy i materiały; 2019, 2 (25); 15-28
1689-8052
2451-0807
Pojawia się w:
Studia Prawnicze: rozprawy i materiały
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Polskie ekwiwalenty greckiego leksemu γάμος w Nowym Testamencie Biblii Leopolity (1561) – swadziebny, gody, wesele – a problem stratyfikacji chronologicznej leksyki tego przekładu
Polish equivalents for the Greek lexeme γάμος in the New Testament of the Leopolita’s Bible (1561) – swadziebny, gody, wesele – and the problem of its lexis chronological stratification
Autorzy:
Lisowski, Tomasz
Powiązania:
https://bibliotekanauki.pl/articles/2171630.pdf
Data publikacji:
2021-12-29
Wydawca:
Uniwersytet Pedagogiczny im. Komisji Edukacji Narodowej w Krakowie
Tematy:
chronolexicology
chronological text lexis layers
the Leopolita’s Bible (1561)
Renaisance Polish renderings of the New Testament
lexical equivalence
empirical system data
empirical text data
chronoleksykologia
chronologiczne warstwy leksyki tekstu
Biblia Leopolity
polskie renesansowe przekłady nowotestamentowe
ekwiwalencja leksykalna
empiryczne dane systemowe
empiryczne dane tekstowe
Opis:
There are same chronological diversified lexis layers In the Bible edited by Jan Leopolita and published in Cracow in 1561. The analysis of Polish equivalents for the Greek lexeme γάμος (or its Latin equivalents in the Vulgate – nuptiae, nuptialis) ‘a marriage, wedding, weddingceremony; plur: a wedding-feast’, i. e. swadziebny, gody, wesele, referring to empirical system and text data, acquired from lexica of the historic Polish and from texts of other Renaissance Polish renderings of the New Testament, proved chronological diversity of the equivalents. The lexeme swadziebny belongs to an older lexis layer, probably representing the lexicon of the former translation, perhaps medieval. The lexeme wesele represents a new lexis layer which may have been introduced into the text by Jan Leopolita, as the effect of his editorial efforts. Chronological status of the lexeme wesele in the analyzed Biblical rendering lexicon is ambiguous. It should be considered as an evidence of an traditional lexis layer. It may have been introduced into the text as a substitute of the lexeme swadziebny.
Źródło:
Annales Universitatis Paedagogicae Cracoviensis. Studia Linguistica; 2021, 16; 105-116
2083-1765
Pojawia się w:
Annales Universitatis Paedagogicae Cracoviensis. Studia Linguistica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Mass Violence Detection Using Data Mining Techniques
Autorzy:
Varma, Rishabh
Ahmad, Sartaj
Powiązania:
https://bibliotekanauki.pl/articles/1159845.pdf
Data publikacji:
2018
Wydawca:
Przedsiębiorstwo Wydawnictw Naukowych Darwin / Scientific Publishing House DARWIN
Tematy:
Data mining
Predictive model
Text mining
Tweet analysis
Opis:
The world is now witnessing a tectonic shift in the way in which people react to social and economic impacts such as rise in fossil fuel prices, implication of new rules and regulations, and other situations which directly affect the emotions of a certain group of people. Violence is the most widely used way of expressing anger and discontent for a particular situation which might have occurred. Such actions can cause loss of millions of dollars and precious lives of people who come in way of such protests. These protests are mainly conducted through social media platforms such as twitter as it is not possible to personally communicate to tens of thousand people to accumulate at a certain place, therefore it is extremely important as well as necessary to keep an eye on the social media statuses and updates of people in the times of crisis and heavy tension. This paper aims to collect the tweets of people uploaded on twitter and then process them to find out the location, time and intensity of the mass violence so that the responsible authorities can handle the situation and prevent violence.
Źródło:
World Scientific News; 2018, 113; 218-225
2392-2192
Pojawia się w:
World Scientific News
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Cluo: web-scale text mining system for open source intelligence purposes
Autorzy:
Maciołek, P.
Dobrowolski, G.
Powiązania:
https://bibliotekanauki.pl/articles/305361.pdf
Data publikacji:
2013
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
text mining
big data
OSINT
natural language processing
monitoring
Opis:
The amount of textual information published on the Internet is considered to be in billions of web pages, blog posts, comments, social media updates and others. Analyzing such quantities of data requires high level of distribution – both data and computing. This is especially true in case of complex algorithms, often used in text mining tasks. The paper presents a prototype implementation of CLUO – an Open Source Intelligence (OSINT) system, which extracts and analyzes significant quantities of openly available information.
Źródło:
Computer Science; 2013, 14 (1); 45-62
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Analiza wpisów na portalu Twitter z wykorzystaniem narzędzi big data zawartych w pakiecie R
Social media analysis with big data tools
Autorzy:
Kisiołek, Arkadiusz
Powiązania:
https://bibliotekanauki.pl/articles/591261.pdf
Data publikacji:
2018
Wydawca:
Uniwersytet Ekonomiczny w Katowicach
Tematy:
Analiza danych
Big data
Internet
Social media
Text mining
Opis:
Wraz z rozwojem internetu, mediów społecznościowych oraz technologii mobilnych znacznie wzrosła ilość generowanych danych. Dane te, zarówno w formie ustrukturalizowanej, jak i nieustrukturalizowanej, mogą nieść wartość biznesową dla przedsiębiorców. W danych big data można znaleźć m.in. informacje na temat klientów, konkurencji, rynku pracy, opinii na temat produktów danej firmy, czy aktualnych trendów. Dzięki dokładnej analizie internetu i mediów społecznościowych, interesariusze mogą pozyskać nową wartość, jaką są informacje na temat nastawienia i opinii konsumentów. Celem artykułu jest przedstawienie narzędzi big data jako jednego ze sposobów analizy mediów społecznościowych i wyciągania w ten sposób wartościowych informacji. Przedmiotem przeprowadzonej analizy były tysiące tweetów użytkowników portalu Twitter. Analiza została przeprowadzona przy wykorzystaniu technik text mining oraz sentyment analysis.
Development of Internet, social media and databases has caused a huge increase of data. Structured, semi-structured and unstructured data has a high business value. It contains various information about customers, competition, labor market, and development trends for industries, products and services. The internet and social media are places where customers express their opinions about various products and services. It is a valuable source of information for entrepreneurs. The aim of this paper is to explore the issue of big data and to propose a set of different techniques for the analysis of customer opinions on the example of Twitter.
Źródło:
Studia Ekonomiczne; 2018, 362; 306-317
2083-8611
Pojawia się w:
Studia Ekonomiczne
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Analysis of data pre-processing methods for sentiment analysis of reviews
Autorzy:
Parlar, Tuba
Ozel, Selma
Song, Fei
Powiązania:
https://bibliotekanauki.pl/articles/305513.pdf
Data publikacji:
2019
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
data pre-processing
feature selection
sentiment analysis
text classification
Opis:
The goals of this study are to analyze the effects of data pre-processing methods for sentiment analysis and determine which of these pre-processing methods (and their combinations) are effective for English as well as for an agglutinative language like Turkish. We also try to answer the research question of whether there are any differences between agglutinative and non-agglutinative languages in terms of pre-processing methods for sentiment analysis. We find that the performance results for the English reviews are generally higher than those for the Turkish reviews due to the differences between the two languages in terms of vocabularies, writing styles, and agglutinative property of the Turkish language.
Źródło:
Computer Science; 2019, 20 (1); 123-141
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A Review of Artificial Intelligence Algorithms in Document Classification
Autorzy:
Bilski, A.
Powiązania:
https://bibliotekanauki.pl/articles/226245.pdf
Data publikacji:
2011
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
classifier
text classification
data mining
information retrieval
machine learning algorithms
Opis:
With the evolution of Internet, the meaning and accessibility of text documents and electronic information has increased. The automatic text categorization methods became essential in the information organization and data mining process. A proper classification of e-documents, various Internet information, blogs, emails and digital libraries requires application of data mining and machine learning algorithms to retrieve the desired data. The following paper describes the most important techniques and methodologies used for the text classification. Advantages and effectiveness of contemporary algorithms are compared and their most notable applications presented.
Źródło:
International Journal of Electronics and Telecommunications; 2011, 57, 3; 263-270
2300-1933
Pojawia się w:
International Journal of Electronics and Telecommunications
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Pozyskiwanie i analiza danych na temat ofert pracy z wykorzystaniem big data
The collection and analysis of the data on job advertisements with the use of big data
Autorzy:
Maślankowski, Jacek
Powiązania:
https://bibliotekanauki.pl/articles/962829.pdf
Data publikacji:
2019
Wydawca:
Główny Urząd Statystyczny
Tematy:
big data
text mining
web scraping
rynek pracy
labour market
Opis:
Celem artykułu jest zaprezentowanie korzyści wynikających z wykorzystania na potrzeby statystyki publicznej (rynku pracy) narzędzi do automatycznego pobierania danych na temat ofert pracy zamieszczanych na stronach internetowych zaliczanych do zbiorów big data, a także związanych z tym wyzwań. Przedstawiono wyniki eksperymentalnych badań z wykorzystaniem metod web scrapingu oraz text miningu. Analizie poddano dane z lat 2017 i 2018 pochodzące z najpopularniejszych portali z ofertami pracy. Odwołano się do danych Głównego Urzędu Statystycznego (GUS) zbieranych na podstawie sprawozdania Z-05. Przeprowadzona analiza prowadzi do wniosku, że web scraping może być stosowany w statystyce publicznej do pozyskiwania danych statystycznych z alternatywnych źródeł, uzupełniających istniejące bazy danych statystycznych, pod warunkiem zachowania spójności z istniejącymi badaniami.
The goal of this paper is to present, on the one hand, the benefits for official statistics (labour market) resulting from the use of web scraping methods to gather data on job advertisements from websites belonging to big data compilations, and on the other, the challenges connected to this process. The paper introduces the results of experimental research where web-scraping and text-mining methods were adopted. The analysis was based on the data from 2017–2018 obtained from the most popular jobsearching websites, which was then collated with Statistics Poland’s data obtained from Z-05 forms. The above-mentioned analysis demonstrated that web-scraping methods can be adopted by public statistics services to obtain statistical data from alternative sources complementing the already-existing databases, providing the findings of such research remain coherent with the results of the already-existing studies.
Źródło:
Wiadomości Statystyczne. The Polish Statistician; 2019, 64, 9; 60-74
0043-518X
Pojawia się w:
Wiadomości Statystyczne. The Polish Statistician
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Good and bad sociology: does topic modelling make a difference?
Autorzy:
BARANOWSKI, MARIUSZ
CICHOCKI, PIOTR
Powiązania:
https://bibliotekanauki.pl/articles/2028162.pdf
Data publikacji:
2021-12-31
Wydawca:
Uniwersytet im. Adama Mickiewicza w Poznaniu
Tematy:
unsupervised text analysis
LDA
topic modelling
sociological methods
big data sociology
Opis:
The changing social reality, which is increasingly digitally networked, requires new research methods capable of analysing large bodies of data (including textual data). This development poses a challenge for sociology, whose ambition is primarily to describe and explain social reality. As traditional sociological research methods focus on analysing relatively small data, the existential challenge of today involves the need to embrace new methods and techniques, which enable valuable insights into big volumes of data at speed. One such emerging area of investigation involves the application of Natural Language Processing and Machine-Learning to text mining, which allows for swift analyses of vast bodies of textual content. The paper’s main aim is to probe whether such a novel approach, namely, topic modelling based on Latent Dirichlet Allocation (LDA) algorithm, can find meaningful applications within sociology and whether its adaptation makes sociology perform its tasks better. In order to outline the context of the applicability of LDA in the social sciences and humanities, an analysis of abstracts of articles published in journals indexed in Elsevier’s Scopus database on topic modelling was conducted. This study, based on 1,149 abstracts, showed not only the diversity of topics undertaken by researchers but helped to answer the question of whether sociology using topic modelling is “good” sociology in the sense that it provides opportunities for exploration of topic areas and data that would not otherwise be undertaken.
Źródło:
Society Register; 2021, 5, 4; 7-22
2544-5502
Pojawia się w:
Society Register
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Metodyka dla analizy treści w projektach stosujących techniki text mining i rozwiązania CAQDAS piątej generacji
Autorzy:
Tomanek, Krzysztof
Powiązania:
https://bibliotekanauki.pl/articles/2033749.pdf
Data publikacji:
2017
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
analiza treści
Mixed Methods
Big Data
techniki text mining
CAQDAS
Content Analysis
Mixed Methods Approach
Text Mining
Opis:
Projekty, w których przychodzi nam pracować z dużymi wolumenami danych tekstowych, pochodzących z rożnych źródeł i zapisanych w różnorodnych formatach, rodzą wiele dylematów natury metodologicznej, wymagają często niestandardowych decyzji i rozwiązań. W szczególności zadanie polegające na opracowaniu danych o różnorodnej jakości, nieustrukturyzowanych typu quan i qual wymagać może pracy, w której dynamicznie zmieniają się strategie analizy danych, sposoby przekształcania danych tekstowych. Artykuł opisuje przykład takiej właśnie „dynamicznej” metodyki. Wykazała ona swoją wartość w zadaniu polegającym na klasyfikacji wypowiedzi pisanych. W tak zarysowanym kontekście autor artykułu mierzy się z następującymi celami: (a) czy można zastosować oprogramowanie klasy CAQDAS do pracy półautomatycznej lub automatycznej zastępującej część manualnej pracy nad klasyfikacją wypowiedzi? (b) jak skonstruować metodykę klasyfikacji dla danych o różnorodnej jakości? (c) kiedy klasyfikacja automatyczna jest przydatna, a kiedy nie ma szans powodzenia? W artykule zaznaczone zostaną momenty, w których analityk sięga po wiedzę typową dla analiz danych jakościowych oraz te, kiedy wiedza z tego obszaru nie jest już wystarczająca do realizacji wskazanych celów (natural language processing, uczenie maszynowe). Przykład projektu będący tłem artykułu wymusił zastosowanie kilku narzędzi i języków wspierających pracę na danych. Praca nad transformacją, klasyfikacją oraz wizualizacją wyników wymagała zastosowania bazy MySQL oraz programów: R, QDA Miner, Wordstat, QlikSense. Roli i ograniczeniom narzędzi klasy CAQDAS poświęconych zostało także kilka uwag.
Projects which we work with—large volumes of text data that are acquired from various sources and stored in a variety of formats—rise many dilemmas of a methodological nature, often require unstandardized decisions and solutions. In particular, compiling data of various quality, unstructured types, and of quan and qual nature requires dynamic strategies, ideas, and ways of analysis. The article describes an example of this approach. It shows its value in classification of written statements. In such context, the author of the article faces the following objectives: (a) can we use CAQDASso that semiautomatic or automatic work would replace some manual work regarding classification of the expressions; (b) how to construct a classification methodology for data of various quality; (c) when the automatic classification is useful and when there is no chance of success? The article will be marked with moments in which the analyst reaches for knowledge typical for qualitative data analysis, and when the knowledge of this area is no longer sufficient to classify content (natural language processing, machine learning). An example of a project being the background of this article forced the use of several tools and languages to support work with the data. Work on the transformation, classification, and visualization of results required applications such as: MySQL, R, QDA Miner, WordStat, Qlik Sense. Role and limits of the computer-assisted qualitative data analysis software tools have also been noted.
Źródło:
Przegląd Socjologii Jakościowej; 2017, 13, 2; 128-143
1733-8069
Pojawia się w:
Przegląd Socjologii Jakościowej
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Brand position in the eyes of customers: assessment of selected airlines by the passengers online reviews
Autorzy:
Hoffmann, Natalia
Powiązania:
https://bibliotekanauki.pl/articles/16729698.pdf
Data publikacji:
2022
Wydawca:
Instytut Badań Gospodarczych
Tematy:
data mining
text mining
branch
brand
opinion
R
client
airline
sentiment analysis
Opis:
Motivation: The motivation to write an article on airlines was the desire to rank them based on customer reviews and see how these reviews reflect the actual brand image. The opinions that companies collect about themselves have a very strong power when it comes to building its reputation. Aim: The aim of the study was to use digital transformation and transform raw data into specific information that expressed customer emotions to create a profile of selected airlines. A secondary goal of the article was also to check how the analyzed airlines perform in similar areas. Materials and methods: The data used for the analysis was collected from the eSky.com website and covers the 2019-2020 period. The airlines concerned by the customer reviews were LOT, Ryanair, Wizzair, Czarter, EasyJet, Lufthansa and Laudamotion. Their selection was dictated by the number of opinions necessary to conduct the analysis. The research based on the use of data mining techniques, but it should be noted that most of it uses text mining tools. Topic modelling was used to prepare the data properly and assign each word to groups with similar themes. In order to obtain information whether a given opinion has a positive, negative or neutral tenor, sentiment analysis was used. The final part of the analysis was based on the net sentiment score indicator. The entire analysis was carried out in the R-Studio. Results: The most common subjects of opinions written by customers were "delay", "service", "boarding" and "airline". It was confirmed that the opinions of each airline concern different topics, although some common topics were noticeable. Two topics were repeated among the 7 analyzed airlines: "service" and "delay". Based on the sentiment analysis, for the Ryanair airline the percentage of negative opinions was highest and equal to 35%, almost 40%, of neutral opinions fell on the WizzAir airline and the largest percentage of positive feedback, as much as 46%, was attributed to EasyJet. EasyJet line looks the best in the eyes of customers. The line that evoked uniformly positive, negative and neutral emotions in the opinions was Ryanair.
Źródło:
Catallaxy; 2022, 7, 1; 7-21
2544-090X
Pojawia się w:
Catallaxy
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Impact of n-stage latent Dirichlet allocation on analysis of headline classification
Autorzy:
Guven, Zekeriya Anil
Diri, Banu
Cakaloglu, Tolgahan
Powiązania:
https://bibliotekanauki.pl/articles/27312901.pdf
Data publikacji:
2022
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
topic modeling
headline classification
machine learning
text classification
latent Dirichlet allocation
data analysis
Opis:
Data analysis becomes difficult when the amount of the data increases. More specifically, extracting meaningful insights from this vast amount of data and grouping it based on its shared features without human intervention requires advanced methodologies. There are topic-modeling methods that help overcome this problem in text analyses for downstream tasks (such as sentiment analysis, spam detection, and news classification). In this research, we benchmark several classifiers (namely, random forest, AdaBoost, naive Bayes, and logistic regression) using the classical latent Dirichlet allocation (LDA) and n-stage LDA topic-modeling methods for feature extraction in headline classification. We ran our experiments on three and five classes of publicly available Turkish and English datasets. We have demonstrated that, as a feature extractor, n-stage LDA obtains state-of-the-art performance for any downstream classifier. It should also be noted that random forest was the most successful algorithm for both datasets.
Źródło:
Computer Science; 2022, 23 (3); 375--394
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Analysis of methods and means of text mining
Autorzy:
Rybchak, Z.
Basystiuk, O.
Powiązania:
https://bibliotekanauki.pl/articles/411072.pdf
Data publikacji:
2017
Wydawca:
Polska Akademia Nauk. Oddział w Lublinie PAN
Tematy:
text mining
text analytics
data analysis
high-quality information
text categorization
text clustering
document summarization
sentiment analysis
sieć językowa
analiza tekstu
analiza danych
wysoka jakość informacji
klasyfikacja tekstowa
kategoryzacja tekstowa
grupowanie tekstu
streszczenie dokumentów tekstowych
technika sentiment analysis
Opis:
In Big Data era when data volume doubled every year analyzing of all this data become really complicated task, so in this case text mining systems, techniques and tools become main instrument of analyzing tones and tones of information, selecting that information that suit the best for your needs and just help save your time for more interesting thing. The main aims of this article are explain basic principles of this field and overview some interesting technologies that nowadays are widely used in text mining.
Źródło:
ECONTECHMOD : An International Quarterly Journal on Economics of Technology and Modelling Processes; 2017, 6, 2; 73-78
2084-5715
Pojawia się w:
ECONTECHMOD : An International Quarterly Journal on Economics of Technology and Modelling Processes
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Raising a Child to Live in Society – Personality Traits Parents Develop and Prevent from Developing in their Preschool Children
Autorzy:
Szymańska, Agnieszka
Aranowska, Elżbieta
Powiązania:
https://bibliotekanauki.pl/articles/36420330.pdf
Data publikacji:
2022-12-20
Wydawca:
Wydawnictwo Naukowe Chrześcijańskiej Akademii Teologicznej w Warszawie
Tematy:
personality development
disorders of personality
parental goals
data mining algorithms
text mining algorithms
social network analysis
Opis:
Personal characteristics that parents want to shape in their children are called parental goals and can be divided into desired and undesired traits. Which of them are most and the least desirable by parents in context of developing child’s personality? Do parental goals change with the age of the child? The study was conducted on a sample of 319 parents of children aged 3, 4, 5 and 6 years old. Analyses were carried out using two data mining algorithms: (a) text mining algorithms, (b) support vector machine and (c) social network analysis, and (d) Aranowska's λ judge agreement coefficient. The results revealed that parents of preschool children care mainly about the development of competency traits, especially self-reliance. When it comes to undesirable traits, parents make sure that their children do not develop traits from the field of temperament - personality (especially aggressiveness) and traits from the area of lack of virtues (selfishness, laziness, lies). It is noticeable that when the child reaches the age of 4 the parental goals change. Based on the characteristics selected by parents, it can be correctly predicted how old the child is.
Źródło:
Studia z Teorii Wychowania; 2022, XIII(4 (41)); 409-431
2083-0998
2719-4078
Pojawia się w:
Studia z Teorii Wychowania
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Cloud-based sentiment analysis for measuring customer satisfaction in the Moroccan banking sector using Naïve Bayes and Stanford NLP
Autorzy:
Riadsolh, Anouar
Lasri, Imane
ElBelkacemi, Mourad
Powiązania:
https://bibliotekanauki.pl/articles/2141901.pdf
Data publikacji:
2020
Wydawca:
Sieć Badawcza Łukasiewicz - Przemysłowy Instytut Automatyki i Pomiarów
Tematy:
Big Data processing
Apache Spark
Apache Kafka
real-time text processing
sentiment analysis
Stanford core NLP
Naïve Bayes classifier
Opis:
In a world where every day we produce 2.5 quintillion bytes of data, sentiment analysis has been a key for making sense of that data. However, to process huge text data in real-time requires building a data processing pipeline in order to minimize the latency to process data streams. In this paper, we explain and evaluate our proposed real-time customer’ sentiment analysis pipeline on the Moroccan banking sector through data from the web and social network using open-source big data tools such as data ingestion using Apache Kafka, In-memory data processing using Apache Spark, Apache HBase for storing tweets and the satisfaction indicator, and ElasticSearch and Kibana for visualization then NodeJS for building a web application. The performance evaluation of Naïve Bayesian model show that for French Tweets the accuracy has reached 76.19% while for English Tweets the result was unsatisfactory and the resulting accuracy is 56%. To remedy this problem, we used the Stanford core NLP which, for English Tweets, reaches a precision of 80.7%.
Źródło:
Journal of Automation Mobile Robotics and Intelligent Systems; 2020, 14, 4; 64-71
1897-8649
2080-2145
Pojawia się w:
Journal of Automation Mobile Robotics and Intelligent Systems
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Adaptation of domain-specific transformer models with text oversampling for sentiment analysis of social media posts on Covid-19 vaccine
Autorzy:
Bansal, Anmol
Choudhry, Arjun
Sharma, Anubhav
Susan, Seba
Powiązania:
https://bibliotekanauki.pl/articles/27312860.pdf
Data publikacji:
2023
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
Covid-19
vaccine
transformer
Twitter
BERTweet
CT-BERT
BERT
XLNet
RoBERTa
text oversampling
LMOTE
class imbalance
small sample data set
Opis:
Covid-19 has spread across the world and many different vaccines have been developed to counter its surge. To identify the correct sentiments associated with the vaccines from social media posts, we fine-tune various state-of-the-art pretrained transformer models on tweets associated with Covid-19 vaccines. Specifically, we use the recently introduced state-of-the-art RoBERTa, XLNet, and BERT pre-trained transformer models, and the domain-specific CT-BER and BERTweet transformer models that have been pre-trained on Covid-19 tweets. We further explore the option of text augmentation by oversampling using the language model-based oversampling technique (LMOTE) to improve the accuracies of these models - specifically, for small sample data sets where there is an imbalanced class distribution among the positive, negative and neutral sentiment classes. Our results summarize our findings on the suitability of text oversampling for imbalanced, small-sample data sets that are used to fine-tune state-of-the-art pre-trained transformer models as well as the utility of domain-specific transformer models for the classification task.
Źródło:
Computer Science; 2023, 24 (2); 163--182
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Przegląd zastosowań analizy text miningowej
Overview of uses text mining analysis
Autorzy:
Gładysz, A.
Powiązania:
https://bibliotekanauki.pl/articles/311433.pdf
Data publikacji:
2016
Wydawca:
Instytut Naukowo-Wydawniczy "SPATIUM"
Tematy:
dokument tekstowy
eksploracja danych tekstowych
text mining
data mining
analiza danych tekstowych
przetwarzanie informacji
wyszukiwanie informacji
tłumaczenie automatyczne
nadmiar informacji
business intelligence
information retrieval
data processing
document similarity
machine translation
information overload
Opis:
W artykule omówiona została eksploracyjna analiza danych tekstowych ze szczególnym naciskiem na zastosowania analizy text miningowej. We współczesnym świecie istnieje wiele różnych branż biznesowych w których pracownicy stykają się z nadmiarem napływających informacji. Rozwój społeczeństwa informacyjnego oraz technologii informatycznych pociągnął za sobą w sposób naturalny powstanie zautomatyzowanych systemów wspomagających wyszukiwanie i porządkowanie informacji. Techniki text miningu znajdują coraz większe zastosowanie, zaś szeroki przegląd zastosowań wraz ze wskazaniem praktycznym możliwości zastosowania analizy text miningowej został dogłębnie omówiony w artykule.
The article discussed the text mining with particular emphasis on the use of text mining analysis. In the modern world there are many different business industries where workers are in contact with an excess of incoming information. The development of the information society and information technology entailed a natural rise of automated systems to support search and organize information. Text mining techniques are increasingly applied, and a broad overview of applications, together with an indication of the practical possibilities of the use of text mining analysis has been thoroughly discussed in the article.
Źródło:
Autobusy : technika, eksploatacja, systemy transportowe; 2016, 17, 12; 1742-1746
1509-5878
2450-7725
Pojawia się w:
Autobusy : technika, eksploatacja, systemy transportowe
Dostawca treści:
Biblioteka Nauki
Artykuł

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies