Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "text mining" wg kryterium: Wszystkie pola


Wyświetlanie 1-10 z 10
Tytuł:
Metodyka dla analizy treści w projektach stosujących techniki text mining i rozwiązania CAQDAS piątej generacji
Autorzy:
Tomanek, Krzysztof
Powiązania:
https://bibliotekanauki.pl/articles/2033749.pdf
Data publikacji:
2017
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
analiza treści
Mixed Methods
Big Data
techniki text mining
CAQDAS
Content Analysis
Mixed Methods Approach
Text Mining
Opis:
Projekty, w których przychodzi nam pracować z dużymi wolumenami danych tekstowych, pochodzących z rożnych źródeł i zapisanych w różnorodnych formatach, rodzą wiele dylematów natury metodologicznej, wymagają często niestandardowych decyzji i rozwiązań. W szczególności zadanie polegające na opracowaniu danych o różnorodnej jakości, nieustrukturyzowanych typu quan i qual wymagać może pracy, w której dynamicznie zmieniają się strategie analizy danych, sposoby przekształcania danych tekstowych. Artykuł opisuje przykład takiej właśnie „dynamicznej” metodyki. Wykazała ona swoją wartość w zadaniu polegającym na klasyfikacji wypowiedzi pisanych. W tak zarysowanym kontekście autor artykułu mierzy się z następującymi celami: (a) czy można zastosować oprogramowanie klasy CAQDAS do pracy półautomatycznej lub automatycznej zastępującej część manualnej pracy nad klasyfikacją wypowiedzi? (b) jak skonstruować metodykę klasyfikacji dla danych o różnorodnej jakości? (c) kiedy klasyfikacja automatyczna jest przydatna, a kiedy nie ma szans powodzenia? W artykule zaznaczone zostaną momenty, w których analityk sięga po wiedzę typową dla analiz danych jakościowych oraz te, kiedy wiedza z tego obszaru nie jest już wystarczająca do realizacji wskazanych celów (natural language processing, uczenie maszynowe). Przykład projektu będący tłem artykułu wymusił zastosowanie kilku narzędzi i języków wspierających pracę na danych. Praca nad transformacją, klasyfikacją oraz wizualizacją wyników wymagała zastosowania bazy MySQL oraz programów: R, QDA Miner, Wordstat, QlikSense. Roli i ograniczeniom narzędzi klasy CAQDAS poświęconych zostało także kilka uwag.
Projects which we work with—large volumes of text data that are acquired from various sources and stored in a variety of formats—rise many dilemmas of a methodological nature, often require unstandardized decisions and solutions. In particular, compiling data of various quality, unstructured types, and of quan and qual nature requires dynamic strategies, ideas, and ways of analysis. The article describes an example of this approach. It shows its value in classification of written statements. In such context, the author of the article faces the following objectives: (a) can we use CAQDASso that semiautomatic or automatic work would replace some manual work regarding classification of the expressions; (b) how to construct a classification methodology for data of various quality; (c) when the automatic classification is useful and when there is no chance of success? The article will be marked with moments in which the analyst reaches for knowledge typical for qualitative data analysis, and when the knowledge of this area is no longer sufficient to classify content (natural language processing, machine learning). An example of a project being the background of this article forced the use of several tools and languages to support work with the data. Work on the transformation, classification, and visualization of results required applications such as: MySQL, R, QDA Miner, WordStat, Qlik Sense. Role and limits of the computer-assisted qualitative data analysis software tools have also been noted.
Źródło:
Przegląd Socjologii Jakościowej; 2017, 13, 2; 128-143
1733-8069
Pojawia się w:
Przegląd Socjologii Jakościowej
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Charakterystyczne elementy marek polskich miast w recenzjach dostępnych online
Autorzy:
Nowacki, Marek
Powiązania:
https://bibliotekanauki.pl/articles/627294.pdf
Data publikacji:
2019
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
kapitał marki
destynacje
TripAdvisor
Text Mining
Opis:
Celem pracy jest zidentyfikowanie charakterystycznych elementów marek polskich miast oraz wskazanie podobieństw i różnic występujących pomiędzy nimi. Praca ma dać odpowiedź na następujące pytania badawcze: Które elementy w istotny sposób wpływają na odróżnianie marek badanych miast w recenzjach dostępnych online? Które z badanych miast są do siebie najbardziej zbliżone pod względem elementów marki, a które różnią się pod tym względem? Dane do analizy pobrano z serwisu TripAdvisor. Były to opinie dotyczące rejonów koncentracji ruchu turystycznego – starych rynków lub starych miast – pięciu polskich miast: Poznania, Wrocławia, Krakowa, Gdańska i Warszawy (N = 5125). Przeprowadzone analizy pozwoliły zidentyfikować unikatowe elementy marek badanych miast i wskazać podobieństwa oraz różnice występujące pomiędzy markami.
Źródło:
Turyzm; 2019, 29, 1; 69-76
0867-5856
2080-6922
Pojawia się w:
Turyzm
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Unique elements of Polish city brands in online reviews
Autorzy:
Nowacki, Marek
Powiązania:
https://bibliotekanauki.pl/articles/627580.pdf
Data publikacji:
2019
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
brand equity
destinations
cities
TripAdvisor
Text Mining
Opis:
The aim of the paper is to identify unique elements of the brands of Polish cities and to identify similarities and differences between them. The work attempts to answer the following research questions: Which elements significantly differentiate the brands of studied cities in online reviews? and Which of the studied cities are the most similar in terms of brand elements and which differ in this regard. The data for analysis was obtained from TripAdvisor. Reviews about areas of tourist concentration – old markets or old towns – from five Polish cities: Poznań, Wrocław, Kraków, Gdańsk and Warsaw were analysed (N = 5125). The research shows that Gdańsk and Warsaw as well as Poznań and Wrocław have the most similar brand elements. The Kraków brand is the more unique in relation to other cities.
Źródło:
Turyzm; 2019, 29, 1; 63-70
0867-5856
2080-6922
Pojawia się w:
Turyzm
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
„Hańba w Sejmie” – zastosowanie modeli generatywnych do analizy debat parlamentarnych
Autorzy:
Kwiatkowska, Agnieszka
Powiązania:
https://bibliotekanauki.pl/articles/2033754.pdf
Data publikacji:
2017
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
Polska
debaty parlamentarne
elity polityczne
ilościowa analiza treści
text mining
Polska
Parliamentary Debates
Political Elites
Quantitative Content Analysis
Text Mining
Opis:
W ciągu ostatniego dziesięciolecia nastąpił wyraźny wzrost obecności skrajnej retoryki politycznej w debacie parlamentarnej w Polsce. Jednym z aspektów postępującej radykalizacji języka jest nadużywanie słów o wysokim negatywnym natężeniu emocjonalnym w celu opisania zdarzeń występujących w codziennej polityce, co prowadzi do degradacji ich znaczenia. Jak wskazują badania, brutalizacja języka debaty wywołuje negatywne konsekwencje na poziomie elit politycznych i elektoratu, prowadząc do zmniejszonej efektywności działania parlamentu, zaostrzenia konfliktów między partiami i ich zwolennikami oraz do alienacji politycznej obywateli. W artykule przedstawiam możliwości wykorzystania stenogramów parlamentarnych do analizy przemian dyskursu politycznego, w tym wykorzystane algorytmy przeszukiwania korpusów tekstów oraz analizy ukrytych tematów. Jako przykład wykorzystuję zbiór przemówień sejmowych z lat 1991‒2016 odnoszących się do idei hańby, zdrady, niesławy i skandalu. Opieram się głównie na generatywnym modelu tematycznym, wykorzystującym metodę ukrytej alokacji Dirichleta i jej rozszerzeniu – strukturalny model tematyczny, będących nienadzorowanymi metodami ekstrakcji tematów z dużych korpusów tekstów. Wyniki przeprowadzonych analiz potwierdzają wzrost radykalnego słownictwa w czasie, a także określają charakterystyki jego użytkowników oraz najczęściej występujące konteksty (polityka historyczna, kontrola nad mediami, polityka zagraniczna).
Over the last decade there has been a clear increase in extreme political rhetoric in the parliamentary debate in Poland. One aspect of the progressive radicalization of the language is overuse of words having a high negative emotional intensity to describe events in everyday politics, which leads to the degradation of their importance. As research shows, brutalization of the language of the debate has negative consequences at the levels of the political elite and the electorate, leading to reduced efficiency of the parliament, the exacerbation of conflicts between parties and among their supporters, and the political alienation of citizens. In this article, I present the possibilities of using the transcripts of parliamentary discourse to analyze the changes of the political discourse, including the algorithms used for searching text corpora and analysis of the latent topics. As an example, I use a set of parliamentary speeches from the years 1991-2016 related to the idea of shame, betrayal, disgrace and scandal. I base my analyses on generative topic modeling employing on the method of latent Dirichlet allocation and its extension—Structural Topic Model, both being unsupervised methods of extracting topics from large text corpora. The results of the analysis confirm the increase in usage of radical vocabulary in time, and also describe the characteristics of its users and the most common contexts the extreme vocabulary tend to appear (identity politics, control over the media, foreign policy).
Źródło:
Przegląd Socjologii Jakościowej; 2017, 13, 2; 82-109
1733-8069
Pojawia się w:
Przegląd Socjologii Jakościowej
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
W stronę ontologii pola badań jakościowych
Towards an Ontology of Qualitative Research Practices
Autorzy:
Bryda, Grzegorz
Martini, Natalia
Powiązania:
https://bibliotekanauki.pl/articles/623172.pdf
Data publikacji:
2016-11-30
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
ontologia dziedzinowa
metoda słownikowa
odkrywanie wiedzy
analiza treści
Text Mining
domain ontology
dictionary-based approach
knowledge discovery
content analysis
text mining
Opis:
Celem artykułu jest zapoznanie polskiego środowiska badaczy jakościowych z ideą opracowania ontologii dziedzinowej współczesnego pola badań jakościowych. Opisywane w artykule przedsięwzięcie, oparte na wielowymiarowej analizie zawartości międzynarodowych czasopism metodologicznych, zmierza ku uporządkowaniu aktualnej wiedzy w obszarze teorii i metodologii badań jakościowych z intencją ułatwienia orientacji w rozległym i zróżnicowanym polu jakościowych praktyk badawczych. Artykuł opisuje przebieg oraz wstępne wyniki pilotażowego projektu badawczego stosującego metodę słownikową do odkrywania i systematyzowania wiedzy na temat metodologii badań jakościowych na podstawie licznych, bieżących sprawozdań i refleksji operujących w tym polu badaczy.
The aim of the article is to introduce the Polish community of qualitative researchers to a new perspective in the study of qualitative research practices. The idea is to develop an ontology of contemporary qualitative research. Drawing on experiences from our research project, the article discusses the idea of systematizing the present state of art in the field of theory and methodology of qualitative research. Our study focuses on a new methodology of multidimensional content analysis of three international academic journals. The article describes the preliminary results of a pilot study which employs a dictionary-based approach as a method of knowledge discovery in textual databases and its systematization. Our goal is to provide insight in the vast and diverse approaches in the field of qualitative research practices.
Źródło:
Przegląd Socjologii Jakościowej; 2016, 12, 4; 24-40
1733-8069
Pojawia się w:
Przegląd Socjologii Jakościowej
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A Study of the Influence of Online Information on the Changes in the Warsaw Stock Exchange Indexes
Badanie wpływu informacji sieciowych na zmiany indeksów na Giełdzie Papierów Wartościowych w Warszawie
Autorzy:
Młodzianowski, Piotr
Powiązania:
https://bibliotekanauki.pl/articles/660026.pdf
Data publikacji:
2018
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
wiadomości
Giełda Papierow Wartościowych
text mining
analiza sentymentu
news
Warsaw Stock Exchange
sentiment analysis
Opis:
W artykule zaprezentowano wyniki badania nad wpływem informacji sieciowych pochodzących z serwisów internetowych o tematyce finansowej na zmiany indeksów zachodzące na Warszawskiej Giełdzie Papierów Wartościowych. Pierwsza część pracy ma charakter teoretyczny. Przybliżono w niej zagadnienie text miningu oraz analizy sentymentu. Przedstawiono ich zastosowanie w procesie analizy tekstu. W następnej części pracy omówiono charakterystykę prowadzonego badania. Dokonano wyboru polskich serwisów informacyjnych o tematyce finansowej, które mogą wpływać na reakcje inwestorów z Warszawskiej Giełdy Papierów Wartościowych. Przeprowadzono selekcję słów występujących w analizowanych serwisach oraz dokonano ich podziału na klasy. Następnie zaanalizowano zależności między zmianą indeksów GPW a częstością występowania poszczególnych słów w ramach klas. W ostatniej części pracy zaprezentowano wyniki badań, przeprowadzono dyskusję nad możliwościami ich wykorzystania oraz wskazano dalsze kierunki badań.
The article presents the results of a study on the influence of online information originating from financial websites on changes in the Warsaw Stock Exchange indexes. The first part is theoretical. It describes the issue of text mining and sentiment analysis and their use in the text analysis process. The next part of the article describes the characteristics of the study. A selection was made of Polish financial websites that may trigger reactions from investors on the Warsaw Stock Exchange. Words occurring on the analysed websites were selected and put into classes. Then the relation between changes in WSE indexes and the frequency of appearance of individual words within the classes was analysed. The last part of the article presents the study results, discusses the possibilities of using them and indicates further areas for research.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2018, 3, 335; 123-138
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A Modification of the Leacock-Chodorow Measure of the Semantic Relatedness of Concepts
Modyfikacja miary semantycznego podobieństwa pojęć Leacock‑Chodorowa
Autorzy:
Korzeniewski, Jerzy
Powiązania:
https://bibliotekanauki.pl/articles/1033576.pdf
Data publikacji:
2020-12-15
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
badanie tekstu
Sieć WordNet
podobieństwo semantyczne słów
miara Leacock‑Chodorowa
text mining
WordNet network
semantic relatedness
Lecock-Chodorov measure
Opis:
The measures of the semantic relatedness of concepts can be categorised into two types: knowledge‑based methods and corpus‑based methods. Knowledge‑based techniques make use of man‑created dictionaries, thesauruses and other artefacts as a source of knowledge. Corpus‑based techniques assess the semantic similarity of two concepts making use of large corpora of text documents. Some researchers claim that knowledge‑based measures outperform corpus‑based ones, but it is much more important to observe that the latter ones are heavily corpus dependent. In this article, we propose to modify the best WordNet‑based method of assessing semantic relatedness, i.e. the Leacock‑Chodorow measure. This measure has proven to be the best in several studies and has a very simple formula. We asses our proposal on the basis of two popular benchmark sets of pairs of concepts, i.e. the Ruben‑Goodenough set of 65 pairs of concepts and the Fickelstein set of 353 pairs of terms. The results prove that our proposal outperforms the traditional Leacock‑Chodorow measure.
Miary semantycznego podobieństwa pojęć można podzielić na dwa rodzaje: metody oparte na wiedzy i metody oparte na bazie tekstów. Techniki oparte na wiedzy stosują stworzone przez człowieka słowniki oraz inne opracowania. Techniki oparte na bazie tekstów oceniają podobieństwo semantyczne dwóch pojęć, odwołując się do obszernych baz dokumentów tekstowych. Niektórzy badacze twierdzą, że miary oparte na wiedzy są lepsze jakościowo od tych opartych na bazie tekstów, ale o wiele istotniejsze jest to, że te drugie zależą bardzo mocno od użytej bazy tekstów. W niniejszym artykule przedstawiono propozycję modyfikacji najlepszej metody pomiaru semantycznego podobieństwa pojęć, opartej na sieci WordNet, a mianowicie miary Leacock‑Chodorowa. Ta miara była najlepsza w kilku eksperymentach badawczych oraz można zapisać ją za pomocą prostej formuły. Nową propozycję oceniono na podstawie dwóch popularnych benchmarkowych zbiorów par pojęć, tj. zbioru 65 par pojęć Rubensteina‑Goodenougha oraz zbioru 353 par pojęć Fickelsteina. Wyniki pokazują, że przedstawiona propozycja spisała się lepiej od tradycyjnej miary Leacock‑Chodorowa.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2020, 6, 351; 97-106
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Whats and Hows? The Practice-Based Typology of Narrative Analyses
Co i jak? Typologia analiz narracyjnych oparta na praktykach badawczych
Autorzy:
Bryda, Grzegorz
Powiązania:
https://bibliotekanauki.pl/articles/1371561.pdf
Data publikacji:
2020-08-31
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
analiza narracyjna
CAQDAS
analiza treści
Text Mining
kodowanie słownikowe
modelowanie tematyczne
Narrative Analysis
Content Analysis
dictionary-based coding
topic modeling
Opis:
The nature of qualitative research practices is multiparadigmaticity which creates coexistence of different research and analytical approaches to the study of human experience in the living world. This diversity is particularly observed in the contemporary field of narrative research and data analysis. The purpose of this article is a methodological reflection on the process of developing typology and a proposition of new data-driven and practice-based typology of narrative analyses used by qualitative researchers in the lived experience research. I merge the CAQDAS, Corpus Linguistics, and Text Mining procedures to examine the analytical strategies inherited in a vivid language of English-language research articles, published in five influential qualitative methodological journals between 2002-2016. Using the dictionary-based content analysis in the coding process, hierarchical clustering, and topic modeling – a text-mining tool for discovering hidden semantic structures in a textual body – I confront Catherine Kohler Riessman’s heuristic typology with the data-driven approach in order to contribute the more coherent image of narrative analysis in the contemporary field of qualitative research. Finally, I propose a new model of thinking about the typology of narrative analyses based upon research practices.
Istotą jakościowych praktyk badawczych jest wieloparadygmatyczność, która rodzi współistnienie różnych podejść metodologicznych w analizie i badaniu ludzkich doświadczeń w świecie życia codziennego. Różnorodność ta jest szczególnie widoczna w dziedzinie badań i analizy danych narracyjnych. Celem artykułu jest refleksja metodologiczna nad tworzeniem typologii analiz narracyjnych i zarazem propozycja nowego sposobu typologizacji podejść analitycznych, opartego na łączeniu lingwistyki korpusowej i przetwarzania języka naturalnego z procedurami CAQDAS, analizy treści i Text Mining. Typologia ta jest oparta na analizie narracyjnych praktyk badawczych odzwierciedlonych w języku anglojęzycznych artykułów opublikowanych w pięciu uznanych na świecie jakościowych czasopismach metodologicznych w latach 2002–2016. W artykule wykorzystuję metodę słownikową w procesie kodowania artykułów, hierarchiczne grupowanie i modelowanie tematyczne w celu odkrywania w tych publikacjach różnych typów analiz narracyjnych i badania relacji semantycznych między nimi. Jednocześnie konfrontuję heurystyczną typologię Riessmana z podejściem opartym na lingwistyce i eksploracji danych w celu rozwijania spójnego obrazu metodologii analizy narracyjnej we współczesnej dziedzinie badań jakościowych. Ostatecznie przedstawiam nowy model myślenia o analizie narracyjnej.
Źródło:
Przegląd Socjologii Jakościowej; 2020, 16, 3; 120-142
1733-8069
Pojawia się w:
Przegląd Socjologii Jakościowej
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Sentiment Classification of Bank Clients’ Reviews Written in the Polish Language
Analiza sentymentu na podstawie polskojęzycznych recenzji klientów banku
Autorzy:
Idczak, Adam Piotr
Powiązania:
https://bibliotekanauki.pl/articles/2033889.pdf
Data publikacji:
2021-06-30
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
analiza sentymentu
klasyfikacja dokumentów
textmining
regresja logistyczna
naiwny klasyfikator Bayesa
sentiment analysis
opinion mining
text classification
text mining
logistic regression
naive Bayes classifier
Opis:
It is estimated that approximately 80% of all data gathered by companies are text documents. This article is devoted to one of the most common problems in text mining, i.e. text classification in sentiment analysis, which focuses on determining the sentiment of a document. A lack of defined structure of the text makes this problem more challenging. This has led to the development of various techniques used in determining the sentiment of a document. In this paper, a comparative analysis of two methods in sentiment classification, a naive Bayes classifier and logistic regression, was conducted. Analysed texts are written in the Polish language and come from banks. The classification was conducted by means of a bag‑of‑n‑grams approach, where a text document is presented as a set of terms and each term consists of n words. The results show that logistic regression performed better.
Szacuje się, że około 80% wszystkich danych gromadzonych i przechowywanych w systemach informacyjnych przedsiębiorstw ma postać dokumentów tekstowych. Artykuł jest poświęcony jednemu z podstawowych problemów textminingu, tj. klasyfikacji tekstów w analizie sentymentu, która rozumiana jest jako badanie wydźwięku tekstu. Brak określonej struktury dokumentów tekstowych jest przeszkodą w realizacji tego zadania. Taki stan rzeczy wymusił rozwój wielu różnorodnych technik ustalania sentymentu dokumentów. W artykule przeprowadzono analizę porównawczą dwóch metod badania sentymentu: naiwnego klasyfikatora Bayesa oraz regresji logistycznej. Badane teksty są napisane w języku polskim, pochodzą z banków i mają charakter marketingowy. Klasyfikację przeprowadzono, stosując podejście bag‑of‑n‑grams. W ramach tego podejścia dokument tekstowy wyrażony jest za pomocą podciągów składających się z określonej liczby n wyrazów. Uzyskane wyniki pokazały, że lepiej spisała się regresja logistyczna.
Źródło:
Acta Universitatis Lodziensis. Folia Oeconomica; 2021, 2, 353; 43-56
0208-6018
2353-7663
Pojawia się w:
Acta Universitatis Lodziensis. Folia Oeconomica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Analiza sentymentu – metoda analizy danych jakościowych. Przykład zastosowania oraz ewaluacja słownika RID i metody klasyfikacji Bayesa w analizie danych jakościowych
Sentiment analysis. An example of application and evaluation of RID dictionary and Bayesian classification methods in qualitative data analysis approach
Autorzy:
Tomanek, Krzysztof
Powiązania:
https://bibliotekanauki.pl/articles/622902.pdf
Data publikacji:
2014
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
analiza danych jakościowych
analiza sentymentu
analiza treści
text mining
kodowanie tekstów
przetwarzanie języka naturalnego słownik RID
naiwny klasyfikator Bayesa
CAQDAS
qualitative data analysis
sentiment analysis
content analysis
coding techniques
natural language processing
RID dictionary
naive Bayes
Opis:
Celem artykułu jest prezentacja podstawowych metod klasyfikacji jakościowych danych tekstowych. Metody te korzystają z osiągnięć wypracowanych w takich obszarach, jak przetwarzanie języka naturalnego i analiza danych nieustrukturalizowanych. Przedstawiam i porównuję dwie techniki analityczne stosowane wobec danych tekstowych. Pierwsza to analiza z zastosowaniem słownika tematycznego. Druga technika oparta jest na idei klasyfikacji Bayesa i opiera się na rozwiązaniu zwanym naiwnym klasyfikatorem Bayesa. Porównuję efektywność dwóch wspomnianych technik analitycznych w ramach analizy sentymentu. Akcentuję rozwiązania mające na celu zbudowanie trafnego, w kontekście klasyfikacji tekstów, słownika. Porównuję skuteczność tak zwanych analiz nadzorowanych do skuteczności analiz zautomatyzowanych. Wyniki, które prezentuję, wzmacniają wniosek, którego treść brzmi: słownik, który w przeszłości uzyskał dobrą ocenę jako narzędzie klasyfikacyjne, gdy stosowany jest wobec nowego materiału empirycznego, powinien przejść fazę ewaluacji. Jest to, w proponowanym przeze mnie podejściu, podstawowy proces adaptacji słownika analitycznego, traktowanego jako narzędzie klasyfikacji tekstów.
The purpose of this article is to present the basic methods for classifying text data. These methods make use of achievements earned in areas such as: natural language processing, the analysis of unstructured data. I introduce and compare two analytical techniques applied to text data. The first analysis makes use of thematic vocabulary tool (sentiment analysis). The second technique uses the idea of Bayesian classification and applies, so-called, naive Bayes algorithm. My comparison goes towards grading the efficiency of use of these two analytical techniques. I emphasize solutions that are to be used to build dictionary accurate for the task of text classification. Then, I compare supervised classification to automated unsupervised analysis’ effectiveness. These results reinforce the conclusion that a dictionary which has received good evaluation as a tool for classification should be subjected to review and modification procedures if is to be applied to new empirical material. Adaptation procedures used for analytical dictionary become, in my proposed approach, the basic step in the methodology of textual data analysis.
Źródło:
Przegląd Socjologii Jakościowej; 2014, 10, 2; 118-136
1733-8069
Pojawia się w:
Przegląd Socjologii Jakościowej
Dostawca treści:
Biblioteka Nauki
Artykuł
    Wyświetlanie 1-10 z 10

    Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies