Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "natural language processing" wg kryterium: Wszystkie pola


Tytuł:
Benchmarking high performance architectures with natural language processing algorithms
Benchmarking architektur wysokiej wydajności algorytmami przetwarzania języka naturalnego
Autorzy:
Kuta, M.
Kitowski, J.
Powiązania:
https://bibliotekanauki.pl/articles/305469.pdf
Data publikacji:
2011
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
benchmarking
tagowanie częściami mowy
klasteryzacja dokumentów
przetwarzanie języka naturalnego
architektury wysokiej wydajności
part-of-speech tagging
document clustering
natural language processing
high performance architectures
Opis:
Natural Language Processing algorithms are resource demanding, especially when tuning to inflective language like Polish is needed. The paper presents time and memory requirements of part of speech tagging and clustering algorithms applied to two corpora of the Polish language. The algorithms are benchmarked on three high performance platforms of different architectures. Additionally sequential versions and OpenMP implementations of clustering algorithms were compared.
Algorytmy przetwarzania języka naturalnego mają duże zapotrzebowanie na zasoby komputerowe, szczególnie gdy wymagane jest dostosowanie algorytmu do języka fleksyjnego jakim jest np. język polski. Artykuł przedstawia wymagania czasowe i pamięciowe algorytmów tagowania częściami mowy oraz algorytmów klasteryzacji zastosowanych do dwóch korpusów języka polskiego. Dokonano benchmarkingu algorytmów na trzech platformach wysokiej wydajności reprezentujących różne architektury. Dodatkowo porównano wersję sekwencyjną oraz implementacje OpenMP algorytmów klasteryzacji.
Źródło:
Computer Science; 2011, 12; 19-31
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Sémantique lexicale et corpus : l’étude du lexique transdisciplinaire des écrits scientifiques
Autorzy:
Tutin, Agnès
Powiązania:
https://bibliotekanauki.pl/articles/605411.pdf
Data publikacji:
2008
Wydawca:
Uniwersytet Marii Curie-Skłodowskiej. Wydawnictwo Uniwersytetu Marii Curie-Skłodowskiej
Tematy:
corpus linguistics
natural language processing
Opis:
This paper deals with a corpus-based linguistic study in lexical semantics. Our topic is the general scientific lexicon, the cross-disciplinary lexicon peculiar to the academic genre. We show how the use of a large corpus enables to develop an inventory of this vocabulary and present the first semantic treatments performed with the help of the corpus, with a first experiment in natural language processing..
Źródło:
Lublin Studies in Modern Languages and Literature; 2008, 32; 242-260
0137-4699
Pojawia się w:
Lublin Studies in Modern Languages and Literature
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Traitement automatique de la polysémie
Machine-made treatment of polysemy
Autorzy:
Gross, Gaston
Powiązania:
https://bibliotekanauki.pl/articles/1048808.pdf
Data publikacji:
2015-01-01
Wydawca:
Uniwersytet im. Adama Mickiewicza w Poznaniu
Tematy:
polysemy
natural language processing
lexicon-grammar
Opis:
It has been an empirical fact that almost all the words are polysemous. A standard dictionary such as the Petit Robert lists 60,000 entries which correspond to 300,000 meanings. Thus, in this particular dictionary one word is paired with five different senses on average. Moreover, what is being dealt with here is no more than a general reference work, designed for a daily use. It contains only most frequent and general items, but disregards all other available meanings. In what follows, contextual properties will be demonstrated to be able to set apart each instance of polysemy, thus offering an effectual tool likely to do away with ambiguities.
Źródło:
Studia Romanica Posnaniensia; 2015, 42, 1; 15-33
0137-2475
2084-4158
Pojawia się w:
Studia Romanica Posnaniensia
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Fantinuoli, Claudio (Hg.) (2018): Interpreting and technology. (Translation and Multilingual Natural Language Processing 11). Berlin: Language Science Press. 149 S.
Autorzy:
Ustaszewski, Michael
Powiązania:
https://bibliotekanauki.pl/articles/1191732.pdf
Data publikacji:
2020
Wydawca:
Uniwersytet Wrocławski. Oficyna Wydawnicza ATUT – Wrocławskie Wydawnictwo Oświatowe
Źródło:
Studia Translatorica; 2020, 11; 212-218
2084-3321
2657-4802
Pojawia się w:
Studia Translatorica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Specialized fully automatic machine translation system delivering high quality of translated texts
Autorzy:
Gajer, M.
Powiązania:
https://bibliotekanauki.pl/articles/1943201.pdf
Data publikacji:
2009
Wydawca:
Politechnika Gdańska
Tematy:
natural language processing
machine translation
translation patterns
Opis:
The paper concerns machine translation systems that form a discipline of computer science and are aimed at writing computer programs that are able to translate text between natural languages. In the paper the author argues that it is not possible to build a machine translation system that would be able to translate any kind of documents with a sufficiently high quality. Instead, the author proposes a specialized machine translation system the aim of which is to translate financial reports concerning the global currency exchange market – forex. For the purpose of building the above mentioned system, the author has proposed his own machine translation method of translation patterns. The translation patterns allow transferring the translation process from the level of single words to the level of words chunks. The translation patterns play a very important role in the case of such an inflectional language as Polish because they make it possible to choose the correct form of Polish translation of foreign phrases depending whether they perform the verb or object function in the sentence. The high quality of the specialized machine translation system developed by the author was proved with many experiments the results of which are demonstrated in the paper. The quality of translation is so high that the Polish translations of English reports from the global currency exchange market can be published on Web pages without any additional changes. Thus, it is possible to totally eliminate the human translator from the process of translation of texts which are highly stereotypical and oriented to a selected and narrow domain.
Źródło:
TASK Quarterly. Scientific Bulletin of Academic Computer Centre in Gdansk; 2009, 13, 4; 347-354
1428-6394
Pojawia się w:
TASK Quarterly. Scientific Bulletin of Academic Computer Centre in Gdansk
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The Implementation of the example-based machine translation technique for French-to-Polish automatic translation system
Autorzy:
Gajer, M.
Powiązania:
https://bibliotekanauki.pl/articles/1986914.pdf
Data publikacji:
2002
Wydawca:
Politechnika Gdańska
Tematy:
natural language processing
computational linguistics
machine translation
Opis:
High-quality machine translation between human languages has for a long time been an unattainable dream for many computer scientists involved in this fascinating and interdisciplinary field of computer application. The developed quite recently example-based machine translation technique seems to be a serious alternative to the existing automatic translation techniques. In the paper the usage of the example based machine translation technique for the development of system which would be able to translate an unrestricted French text into Polish is proposed. The new approach to the example-based machine translation technique that takes into account the peculiarity of the Polish grammar is developed. The obtained primary results of the development of the proposed system seem to be very promising and appear to be a step made in the right direction towards a fully-automatic high quality French-into-Polish machine translation system for unrestricted text.
Źródło:
TASK Quarterly. Scientific Bulletin of Academic Computer Centre in Gdansk; 2002, 6, 3; 523-544
1428-6394
Pojawia się w:
TASK Quarterly. Scientific Bulletin of Academic Computer Centre in Gdansk
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Application of linguistic cues in the analysis of language of hate groups
Autorzy:
Balcerzak, B.
Jaworski, W.
Powiązania:
https://bibliotekanauki.pl/articles/952938.pdf
Data publikacji:
2015
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
hate speech
natural language processing
propaganda
machine learning
Opis:
Hate speech and fringe ideologies are social phenomena that thrive on-line. Members of the political and religious fringe are able to propagate their ideas via the Internet with less effort than in traditional media. In this article, we attempt to use linguistic cues such as the occurrence of certain parts of speech in order to distinguish the language of fringe groups from strictly informative sources. The aim of this research is to provide a preliminary model for identifying deceptive materials online. Examples of these would include aggressive marketing and hate speech. For the sake of this paper, we aim to focus on the political aspect. Our research has shown that information about sentence length and the occurrence of adjectives and adverbs can provide information for the identification of differences between the language of fringe political groups and mainstream media.
Źródło:
Computer Science; 2015, 16 (2); 145-156
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Compressing sentiment analysis CNN models for efficient hardware processing
Autorzy:
Wróbel, Krzysztof
Karwatowski, Michał
Wielgosz, Maciej
Pietroń, Marcin
Wiatr, Kazimierz
Powiązania:
https://bibliotekanauki.pl/articles/305234.pdf
Data publikacji:
2020
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
natural language processing
convolutional neural networks
FPGA
compression
Opis:
Convolutional neural networks (CNNs) were created for image classification tasks. Shortly after their creation, they were applied to other domains, including natural language processing (NLP). Nowadays, solutions based on artificial intelligence appear on mobile devices and embedded systems, which places constraints on memory and power consumption, among others. Due to CNN memory and computing requirements, it is necessary to compress them in order to be mapped to the hardware. This paper presents the results of the compression of efficient CNNs for sentiment analysis. The main steps involve pruning and quantization. The process of mapping the compressed network to an FPGA and the results of this implementation are described. The conducted simulations showed that the 5-bit width is enough to ensure no drop in accuracy when compared to the floating-point version of the network. Additionally, the memory footprint was significantly reduced (between 85 and 93% as compared to the original model).
Źródło:
Computer Science; 2020, 21 (1); 25-41
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Retrieval and interpretation of textual geolocalized information based on semantic geolocalized relations
Autorzy:
Korczyński, W.
Powiązania:
https://bibliotekanauki.pl/articles/305820.pdf
Data publikacji:
2015
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
geolocalization
geolocalized dictionary
geolocalized relations
natural language processing
Opis:
This paper describes a method for geolocalized information retrieval from natural language text and its interpretation by assigning it geographic coordinates. Proof-of-concept implementation is discussed, along with a geolocalized dictionary stored in a PostGIS/PostgreSQL spatial relational database. The discussed research focuses on the strongly inflectional Polish language; hence, additional complexity had to be taken into account. The presented method has been evaluated with the use of diverse metrics.
Źródło:
Computer Science; 2015, 16 (4); 395-414
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Knowledge graphs effectiveness in Neural Machine Translation improvement
Autorzy:
Ahmadnia, Benyamin
Dorr, Bonnie J.
Kordjamshidi, Parisa
Powiązania:
https://bibliotekanauki.pl/articles/1839251.pdf
Data publikacji:
2020
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
natural language processing
neural machine translation
knowledge graph representation
Opis:
Maintaining semantic relations between words during the translation process yields more accurate target-language output from Neural Machine Translation (NMT). Although difficult to achieve from training data alone, it is possible to leverage Knowledge Graphs (KGs) to retain source-language semantic relations in the corresponding target-language translation. The core idea is to use KG entity relations as embedding constraints to improve the mapping from source to target. This paper describes two embedding constraints, both of which employ Entity Linking (EL)—assigning a unique identity to entities—to associate words in training sentences with those in the KG: (1) a monolingual embedding constraint that supports an enhanced semantic representation of the source words through access to relations between entities in a KG; and (2) a bilingual embedding constraint that forces entity relations in the source-language to be carried over to the corresponding entities in the target-language translation. The method is evaluated for English-Spanish translation exploiting Freebase as a source of knowledge. Our experimental results demonstrate that exploiting KG information not only decreases the number of unknown words in the translation but also improves translation quality
Źródło:
Computer Science; 2020, 21 (3); 299-318
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Cluo: web-scale text mining system for open source intelligence purposes
Autorzy:
Maciołek, P.
Dobrowolski, G.
Powiązania:
https://bibliotekanauki.pl/articles/305361.pdf
Data publikacji:
2013
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
text mining
big data
OSINT
natural language processing
monitoring
Opis:
The amount of textual information published on the Internet is considered to be in billions of web pages, blog posts, comments, social media updates and others. Analyzing such quantities of data requires high level of distribution – both data and computing. This is especially true in case of complex algorithms, often used in text mining tasks. The paper presents a prototype implementation of CLUO – an Open Source Intelligence (OSINT) system, which extracts and analyzes significant quantities of openly available information.
Źródło:
Computer Science; 2013, 14 (1); 45-62
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
An English neural network that learns texts, finds hidden knowledge, and answers questions
Autorzy:
Ke, Y.
Hagiwara, M.
Powiązania:
https://bibliotekanauki.pl/articles/91771.pdf
Data publikacji:
2017
Wydawca:
Społeczna Akademia Nauk w Łodzi. Polskie Towarzystwo Sieci Neuronowych
Tematy:
natural language processing
neural network
question answering
natural language understanding
Opis:
In this paper, a novel neural network is proposed, which can automatically learn and recall contents from texts, and answer questions about the contents in either a large corpus or a short piece of text. The proposed neural network combines parse trees, semantic networks, and inference models. It contains layers corresponding to sentences, clauses, phrases, words and synonym sets. The neurons in the phrase-layer and the word-layer are labeled with their part-of-speeches and their semantic roles. The proposed neural network is automatically organized to represent the contents in a given text. Its carefully designed structure and algorithms make it able to take advantage of the labels and neurons of synonym sets to build the relationship between the sentences about similar things. The experiments show that the proposed neural network with the labels and the synonym sets has the better performance than the others that do not have the labels or the synonym sets while the other parts and the algorithms are the same. The proposed neural network also shows its ability to tolerate noise, to answer factoid questions, and to solve single-choice questions in an exercise book for non-native English learners in the experiments.
Źródło:
Journal of Artificial Intelligence and Soft Computing Research; 2017, 7, 4; 229-242
2083-2567
2449-6499
Pojawia się w:
Journal of Artificial Intelligence and Soft Computing Research
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A blackboard system for generating poetry
Autorzy:
Misztal-Radecka, J.
Indurkhya, B.
Powiązania:
https://bibliotekanauki.pl/articles/305325.pdf
Data publikacji:
2016
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
poetry generation
computational creativity
natural language processing
multi-agent system
Opis:
We present a system to generate poems based on the information extracted from input text such as blog posts. Our design uses the blackboard architecture, in which independent specialized modules cooperate during the generation process by sharing a common workspace known as the blackboard. Each module is responsible for a particular task while generating poetry. Our implementation incorporates modules that retrieve information from the input text, generate new ideas, or select the best partial solutions. These distinct modules (experts) are implemented as diverse computational units that make use of lexical resources, grammar models, sentiment-analyzing tools, and languageprocessing algorithms. A control module is responsible for scheduling actions on the blackboard. We argue that the blackboard architecture is a promising way of simulating creative processes because of its flexibility and compliance with the Global Workspace Theory of mind. The main contribution of this work is the design and prototype implementation of an extensible platform for a poetry-generating system that may be further extended by incorporating new experts as well as some existing poetrygenerating systems as parts of the blackboard architecture. We claim that this design provides a powerful tool for combining many of the existing efforts in the domain of automatic poetry generation.
Źródło:
Computer Science; 2016, 17 (2); 265-294
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Text summarizing in Polish
Streszczanie tekstu w języku polskim
Autorzy:
Branny, E.
Gajęcki, M.
Powiązania:
https://bibliotekanauki.pl/articles/305824.pdf
Data publikacji:
2005
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
przetwarzanie języka naturalnego
streszczanie tekstu
natural language processing
text summarizing
Opis:
The aim of this article is to describe an existing implementation of a text summarizer for Polish, to analyze the results and propose the possibilities of further development. The problem of text summarizing has been already addressed by science but until now there has been no implementation designed for Polish. The implemented algorithm is based on existing developments in the field but it also includes some improvements. It has been optimized for newspaper texts ranging from approx. 10 to 50 sentences. Evaluation has shown that it works better than known generic summarization tools when applied to Polish.
Celem artykułu jest zaprezentowanie algorytmu streszczającego teksty w języku polskim. Mimo istnienia algorytmów streszczających teksty, brak jest algorytmów dedykowanych dla języka polskiego. Przedstawiony algorytm bazuje na istniejących algorytmach streszczania tekstu, ale zawiera kilka ulepszeń. Algorytm jest przeznaczony dla streszczania tekstów prasowych liczących od 10 do 50 zdań. Przeprowadzone testy pokazują, że algorytm działa lepiej od znanych algorytmów zastosowanych dla języka polskiego.
Źródło:
Computer Science; 2005, 7; 31-48
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Swarm algorithms for NLP : the case of limited training data
Autorzy:
Tambouratzis, George
Vassiliou, Marina
Powiązania:
https://bibliotekanauki.pl/articles/1396739.pdf
Data publikacji:
2019
Wydawca:
Społeczna Akademia Nauk w Łodzi. Polskie Towarzystwo Sieci Neuronowych
Tematy:
particle swarm optimisation
natural language processing
text phrasing
machine translation
Opis:
The present article describes a novel phrasing model which can be used for segmenting sentences of unconstrained text into syntactically-defined phrases. This model is based on the notion of attraction and repulsion forces between adjacent words. Each of these forces is weighed appropriately by system parameters, the values of which are optimised via particle swarm optimisation. This approach is designed to be language-independent and is tested here for different languages. The phrasing model’s performance is assessed per se, by calculating the segmentation accuracy against a golden segmentation. Operational testing also involves integrating the model to a phrase-based Machine Translation (MT) system and measuring the translation quality when the phrasing model is used to segment input text into phrases. Experiments show that the performance of this approach is comparable to other leading segmentation methods and that it exceeds that of baseline systems.
Źródło:
Journal of Artificial Intelligence and Soft Computing Research; 2019, 9, 3; 219-234
2083-2567
2449-6499
Pojawia się w:
Journal of Artificial Intelligence and Soft Computing Research
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Evaluating lexicographer controlled semi-automatic word sense disambiguation method in a large scale experiment
Autorzy:
Broda, B.
Piasecki, M.
Powiązania:
https://bibliotekanauki.pl/articles/206405.pdf
Data publikacji:
2011
Wydawca:
Polska Akademia Nauk. Instytut Badań Systemowych PAN
Tematy:
natural language processing
word sense disambiguation
semi-supervised machine learning
Opis:
Word Sense Disambiguation in text remains a difficult problem as the best supervised methods require laborious and costly manual preparation of training data. On the other hand, the unsupervised methods yield significantly lower precision and produce results that are not satisfying for many applications. Recently, an algorithm based on weakly-supervised learning for WSD called Lexicographer-Controlled Semi-automatic Sense Disambiguation (LexCSD) was proposed. The method is based on clustering of text snippets including words in focus. For each cluster we find a core, which is labelled with a word sense by a human, and is used to produce a classifier. Classifiers, constructed for each word separately, are applied to text. The goal of this work is to evaluate LexCSD trained on large volume of untagged text. A comparison showed that the approach is better than most frequent sense baseline in most cases.
Źródło:
Control and Cybernetics; 2011, 40, 2; 419-436
0324-8569
Pojawia się w:
Control and Cybernetics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Terminologiedatenbanken im mobilen Einsatz – eine Projektskizze
Autorzy:
Rösener, Christoph
Powiązania:
https://bibliotekanauki.pl/articles/700383.pdf
Data publikacji:
2013
Wydawca:
Stowarzyszenie Germanistów Polskich
Tematy:
terminology databases, research project, natural language processing, linguistic intelligence, special languages
Opis:
Initially this paper describes the newest trends and tendencies of mobile usage of terminology databases. Additionally it presents the latest technical developments in this area. This is then followed by an overview about a research project, which investigates the concept, implementation and usage of a central terminology database application for mobile usage within a public sector institution in special operational scenarios.
Źródło:
Zeitschrift des Verbandes Polnischer Germanisten; 2013, 2, 2
2353-656X
2353-4893
Pojawia się w:
Zeitschrift des Verbandes Polnischer Germanisten
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Building semantic user profile for polish web news portal
Autorzy:
Misztal-Radecka, J.
Powiązania:
https://bibliotekanauki.pl/articles/305619.pdf
Data publikacji:
2018
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
user profiling
word embeddings
topic modeling
natural language processing
gender prediction
Opis:
The aim of this research is to construct meaningful user profiles that are the most descriptive of user interests in the context of the media content that they browse. We use two distinct state-of-the-art numerical text-representation techniques: LDA topic modeling and Word2Vec word embeddings. We train our models on the collection of news articles in Polish and compare them with a model built on a general language corpus. We compare the performance of these algorithms on two practical tasks. First, we perform a qualitative analysis of the semantic relationships for similar article retrieval, and then we evaluate the predictive performance of distinct feature combinations for user gender classification. We apply the algorithms to the real-world dataset of Polish news service Onet. Our results show that the choice of text representation depends on the task –Word2Vec is more suitable for text comparison, especially for short texts such as titles. In the gender classification task, the best performance is obtained with a combination of features: topics from the article text and word embeddings from the title.
Źródło:
Computer Science; 2018, 19 (3); 307--332
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Domain specific key feature extraction using knowledge graph mining
Autorzy:
Barai, Mohit Kumar
Sanyal, Subhasis
Powiązania:
https://bibliotekanauki.pl/articles/2027771.pdf
Data publikacji:
2020
Wydawca:
Uniwersytet Ekonomiczny w Katowicach
Tematy:
Feature extraction
Knowledge graph
Natural language processing
Product review
Text processing
Opis:
In the field of text mining, many novel feature extraction approaches have been propounded. The following research paper is based on a novel feature extraction algorithm. In this paper, to formulate this approach, a weighted graph mining has been used to ensure the effectiveness of the feature extraction and computational efficiency; only the most effective graphs representing the maximum number of triangles based on a predefined relational criterion have been considered. The proposed novel technique is an amalgamation of the relation between words surrounding an aspect of the product and the lexicon-based connection among those words, which creates a relational triangle. A maximum number of a triangle covering an element has been accounted as a prime feature. The proposed algorithm performs more than three times better than TF-IDF within a limited set of data in analysis based on domain-specific data.
Źródło:
Multiple Criteria Decision Making; 2020, 15; 1-22
2084-1531
Pojawia się w:
Multiple Criteria Decision Making
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The Impact of Investor Sentiment on Direction of Stock Price Changes: Evidence from the Polish Stock Market
Autorzy:
Polak, Kamil
Powiązania:
https://bibliotekanauki.pl/articles/2053925.pdf
Data publikacji:
2021-12-20
Wydawca:
Uniwersytet Warszawski. Wydawnictwo Naukowe Wydziału Zarządzania
Tematy:
sentiment analysis
natural language processing
machine learning
financial forecasting
behavioral finance
Opis:
The purpose of this research is to examine the impact of sentiment derived from news headlines on the direction of stock price changes. The study examines stocks listed on the WIG-banking sub-sector index on the Warsaw Stock Exchange. Two types of data were used: textual and market data. The research period covers the years 2015–2018. Through the research, 7,074 observations were investigated, of which 3,390 with positive sentiment, 2,665 neutral, and 1,019 negative. In order to examine the predictive power of sentiment, six machine learning models were used: Decision Tree Classifier, Random Forest Classifier, XGBoost Classifier, KNN Classifier, SVC and Gaussian Naive Bayes Classifier. Empirical results show that the sentiment of news headlines has no significant explanatory power for the direction of stock price changes in one-day time frame.
Źródło:
Journal of Banking and Financial Economics; 2021, 2(16); 72-90
2353-6845
Pojawia się w:
Journal of Banking and Financial Economics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Towards textual data augmentation for neural networks: synonyms and maximum loss
Autorzy:
Jungiewicz, Michał
Smywiński-Pohl, Aleksander
Powiązania:
https://bibliotekanauki.pl/articles/305750.pdf
Data publikacji:
2019
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
deep learning
data augmentation
neural networks
natural language processing
sentence classification
Opis:
Data augmentation is one of the ways to deal with labeled data scarcity and overfitting. Both of these problems are crucial for modern deep-learning algorithms, which require massive amounts of data. The problem is better explored in the context of image analysis than for text; this work is a step forward to help close this gap. We propose a method for augmenting textual data when training convolutional neural networks for sentence classification. The augmentation is based on the substitution of words using a thesaurus as well as Princeton University's WordNet. Our method improves upon the baseline in most of the cases. In terms of accuracy, the best of the variants is 1.2% (pp.) better than the baseline.
Źródło:
Computer Science; 2019, 20 (1); 57-83
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Methodological and technical challenges of a corpus-based study of Naija
Autorzy:
Caron, Bernard
Linde-Usiekniewicz, Jadwiga
Storch, Anne
Powiązania:
https://bibliotekanauki.pl/chapters/1036950.pdf
Data publikacji:
2020
Wydawca:
Uniwersytet Warszawski. Wydawnictwa Uniwersytetu Warszawskiego
Tematy:
natural language processing
corpus studies
syntax
prosody
Atlantic pidgins and creoles
Opis:
This paper presents early reflections on the NaijaSynCor survey (NSC) financed by the French Agence Nationale de la Recherche. The nature of the language surveyed (Naija, a post-creole spoken in Nigeria as a second language by close to 100 million speakers) has induced a specific choice of theoretical framework (variationist sociolinguistics) and methodology (a corpus-based study using Natural Language Processing). Half-way through the 4 year-study, the initial methodological choices are assessed taking into account the nature of the data that has been collected, and the problems that occurred as early as the initial stages of their annotation.
Źródło:
West African languages. Linguistic theory and communication; 57-75
9788323546313
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Experimental Comparison of Pre-Trained Word Embedding Vectors of Word2Vec, Glove, FastText for Word Level Semantic Text Similarity Measurement in Turkish
Autorzy:
Tulu, Cagatay Neftali
Powiązania:
https://bibliotekanauki.pl/articles/2201815.pdf
Data publikacji:
2022
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
semantic word similarity
word embeddings
NLP
Turkish NLP
natural language processing
Opis:
This study aims to evaluate experimentally the word vectors produced by three widely used embedding methods for the word-level semantic text similarity in Turkish. Three benchmark datasets SimTurk, AnlamVer, and RG65_Turkce are used in this study to evaluate the word embedding vectors produced by three different methods namely Word2Vec, Glove, and FastText. As a result of the comparative analysis, Turkish word vectors produced with Glove and FastText gained better correlation in the word level semantic similarity. It is also found that The Turkish word coverage of FastText is ahead of the other two methods because the limited number of Out of Vocabulary (OOV) words have been observed in the experiments conducted for FastText. Another observation is that FastText and Glove vectors showed great success in terms of Spearman correlation value in the SimTurk and AnlamVer datasets both of which are purely prepared and evaluated by local Turkish individuals. This is another indicator showing that these aforementioned datasets are better representing the Turkish language in terms of morphology and inflections.
Źródło:
Advances in Science and Technology. Research Journal; 2022, 16, 4; 147--156
2299-8624
Pojawia się w:
Advances in Science and Technology. Research Journal
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Computational Analysis of Printed Arabic Text Database for Natural Language Processing
Analiza obliczeniowa bazy danych tekstów drukowanych w języku arabskim na potrzeby przetwarzania języka naturalnego
Autorzy:
Bouressace, Hassina
Powiązania:
https://bibliotekanauki.pl/articles/49331207.pdf
Data publikacji:
2023
Wydawca:
Polska Akademia Nauk. Instytut Slawistyki PAN
Tematy:
język arabski
słownictwo
dokumenty w języku arabskim
słownik frekwencyjny
baza danych tekstów drukowanych w języku arabskim
Arabic language
vocabulary
Arabic documents
frequency dictionary
Arabic printed text database
Opis:
A frequency dictionary of printed Arabic text is essential for natural language processing. It includes 1,251 XML files of Arabic documents collected from ten newspapers and magazines from different countries and created as the PATD database. A total of 2,344 articles were created with various structures: open vocabulary, multi-font, multi-size, and multi-style text. From these articles, 1,102,078 tokens, 19,926 sentences, and 1,000,000 words were extracted. This dictionary provides detailed information for each word, including English equivalents, usage statistics, usage distribution, and the most widely used terms. A thematic vocabulary list of the top words on various topics is also provided. This frequency dictionary is a useful resource of modern Arabic vocabulary for various specialists, students, and learners. The frequency dictionary is freely available to interested researchers on the webpage.
Słownik frekwencyjny bazy danych tekstów drukowanych w języku arabskim jest niezbędny do przetwarzania języka naturalnego. Baza danych tekstów drukowanych w języku arabskim (PATD) zawiera 1251 plików XML różnych dokumentów w języku arabskim pochodzących z dziesięciu gazet i czasopism z kilku krajów. Łącznie utworzono 2 344 artykuły o różnych strukturach: teksty z otwartym słownictwem, z wieloma czcionkami o różnej wielkości  i reprezentujące różne style. Z tych artykułów wyodrębniono 1 102 078 tokenów, 19 926 zdań i 1 000 000 leksemów. Słownik frekwencyjny jest przydatnym źródłem współczesnego słownictwa arabskiego dla różnych specjalistów, studentów oraz uczniów. Jest udostępniony bezpłatnie dla zainteresowanych badaczy na stronie internetowej.
Źródło:
Cognitive Studies | Études cognitives; 2023, 23
1641-9758
2392-2397
Pojawia się w:
Cognitive Studies | Études cognitives
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Dependability aspects of language technology infrastructure
Autorzy:
Walkowiak, T.
Pol, M.
Powiązania:
https://bibliotekanauki.pl/articles/2068758.pdf
Data publikacji:
2018
Wydawca:
Uniwersytet Morski w Gdyni. Polskie Towarzystwo Bezpieczeństwa i Niezawodności
Tematy:
dependability
language technology infrastructure
natural language processing
micro-service architecture
CLARIN-PL
Opis:
The paper presents dependability analysis of CLARIN-PL Centre of Language Technology (CLT). It describes infrastructure, high availability aspects and micro-service architecture used in CLARIN-PL applications. Microservices architecture improves dependability in respect to availability and reliability and to some extent safety. It is comprised of the mechanisms of reliable communication of applications, replication, recovery, and transaction processing. CLT has also a set of components for failure detection, monitoring and autonomic management, and distributed security policy enforcement.
Źródło:
Journal of Polish Safety and Reliability Association; 2018, 9, 3; 101--108
2084-5316
Pojawia się w:
Journal of Polish Safety and Reliability Association
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Temporal Expressions in Polish Corpus KPWr
Autorzy:
Kocoń, Jan
Marcińczuk, Michał
Oleksy, Marcin
Bernaś, Tomasz
Wolski, Michał
Powiązania:
https://bibliotekanauki.pl/articles/676998.pdf
Data publikacji:
2015
Wydawca:
Polska Akademia Nauk. Instytut Slawistyki PAN
Tematy:
PLIMEX
TIMEX
temporal expressions
TimeML
machine learning
natural language processing
information extraction
Opis:
Temporal Expressions in Polish Corpus KPWrThis article presents the result of the recent research in the interpretation of Polish expressions that refer to time. These expressions are the source of information when something happens, how often something occurs or how long something lasts. Temporal information, which can be extracted from text automatically, plays significant role in many information extraction systems, such as question answering, discourse analysis, event recognition and many more. We prepared PLIMEX - a broad description of Polish temporal expressions with annotation guidelines, based on the state-of-the-art solutions for English, mainly TimeML specification. We also adapted the solution to capture the local semantics of temporal expressions, called LTIMEX. Temporal description also supports further event identification and extends event description model, focusing at anchoring events in time, ordering events and reasoning about the persistence of events. We prepared the specification, which is designed to address these issues and we annotated all documents in Polish Corpus of Wroclaw University of Technology (KPWr) using our annotation guidelines.
Źródło:
Cognitive Studies; 2015, 15
2392-2397
Pojawia się w:
Cognitive Studies
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Goal - oriented conversational bot for employment domain
Autorzy:
Drozda, Paweł
Żmijewski, Tomasz
Osowski, Maciej
Krasnodębska, Aleksandra
Talun, Arkadiusz
Powiązania:
https://bibliotekanauki.pl/articles/22615524.pdf
Data publikacji:
2023
Wydawca:
Uniwersytet Warmińsko-Mazurski w Olsztynie
Tematy:
chatbot
Deep Q Network
DQN
goal
oriented bot
Natural Language Processing
NLP
Opis:
This paper focuses of the implementation of the goal – oriented chatbot in order to prepare virtual resumes of candidates for job position. In particular the study was devoted to testing the feasibility of using Deep Q Networks (DQN) to prepare an effective chatbot conversation flow with the final system user. The results of the research confirmed that the use of the DQN model in the training of the conversational system allowed to increase the level of success, measured as the acceptance of the resume by the recruiter and the finalization of the conversation with the bot. The success rate increased from 10% to 64% in experimental environment and from 15% to 45% in production environment. Moreover, DQN model allowed the conversation to be shortened by an average of 4 questions from 11 to 7.
Źródło:
Technical Sciences / University of Warmia and Mazury in Olsztyn; 2023, 26(1); 111--123
1505-4675
2083-4527
Pojawia się w:
Technical Sciences / University of Warmia and Mazury in Olsztyn
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Analiza fleksyjna tekstów historycznych i zmienność fleksji polskiej z perspektywy danych korpusowych
Autorzy:
Woliński, Marcin
Kieraś, Witold
Powiązania:
https://bibliotekanauki.pl/articles/1630443.pdf
Data publikacji:
2020-10-30
Wydawca:
Towarzystwo Kultury Języka
Tematy:
electronic text corpus
natural language processing
inflection of Polish
history of language
Opis:
The subject matter of this paper is Chronofleks, a computer system (http://chronofleks.nlp.ipipan.waw.pl/) modelling Polish inflection based on a corpus material. The system visualises changes of inflectional paradigms of individual lexemes over time and enables examination of the variability of the frequency of inflected form groups distinguished based on various criteria. Feeding Chronofleks with corpus data required development of IT tools to ensure an inflectional processing sequence of texts analogous to the ones used for modern language; they comprise a transcriber, a morphological analyser, and a tagger. The work was performed on data from three historical periods (1601–1772, 1830–1918, and modern ones) elaborated in independent projects. Therefore, finding a common manner of describing data from the individual periods was a significant element of the work.
Źródło:
Poradnik Językowy; 2020, 777, 8; 66-80
0551-5343
Pojawia się w:
Poradnik Językowy
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Automatically generated language learning exercises for Finno-Ugric languages
Autorzy:
Ferenczi, Zsanett
Powiązania:
https://bibliotekanauki.pl/articles/40221007.pdf
Data publikacji:
2023
Wydawca:
Katolicki Uniwersytet Lubelski Jana Pawła II
Tematy:
natural language processing
computer-assisted language learning
virtual flashcards
Finno-Ugric languages
Opis:
Morphologically rich languages always constitute a great challenge for language learners. The learner must be able to understand the information encoded in different word forms of the same root and to generate the correct word form to express certain syntactic functions and grammatical relations by conjugating a verb or declining a noun, an adjective or a pronoun. One way to improve one’s language skills is through exercises that focus on certain aspects of grammar. In this paper, a language learning application is presented that is intended to help learners of Finnish and Hungarian (with Hungarian and Finnish L1, respectively) acquire new vocabulary items, as well as practice some grammar aspects that according to surveys are considered difficult by learners of these languages with the other Finno-Ugric language being the learner’s native tongue, while alleviating the need to create these exercises manually. This application is a result of an on-going research project. In this research project, bilingual translation pairs and additional monolingual data were collected that can be utilized to build language learning exercises and an online bilingual dictionary with the help of automatic methods. Several linguistic patterns and rules were defined in order to automatically select example sentences that focus on a given part of the target language. These sentences were automatically annotated with the help of language processing tools. Due to the large size of the previously collected data sets, to date, only a subset of the analyzed sentences and the bilingual translation pairs has been manually evaluated. The results of this evaluation are discussed in this paper in order to estimate the precision of the methodology presented here. To ensure the precision of the information and the reliability of the application, only manually validated data sets are displayed. In this project, continuous data validation is planned, since it leads to more and more examples and vocabulary items that learners can benefit from.
Źródło:
Linguistics Beyond and Within; 2023, 9; 23-35
2450-5188
Pojawia się w:
Linguistics Beyond and Within
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Automatyczna budowa semantycznego modelu objawów chorobowych na bazie korpusu słownego
Automatic construction of a semantic model of disease symptoms based on text corpus
Autorzy:
Szostek, G.
Jaszuk, M.
Walczak, A.
Powiązania:
https://bibliotekanauki.pl/articles/305941.pdf
Data publikacji:
2012
Wydawca:
Wojskowa Akademia Techniczna im. Jarosława Dąbrowskiego
Tematy:
sieć semantyczna
ontologia
przetwarzanie języka naturalnego
semantic network
ontology
natural language processing
Opis:
Opisane w artykule badania dotyczą danych z dziedziny medycyny. Wyniki badań diagnostycznych rejestrowane są na różne sposoby. Mogą mieć postać tabel, wykresów, obrazów. Niezależnie od oryginalnego formatu danych możliwe jest sporządzenie ich opisu słownego, który koncentruje się na opisie zaobserwowanych objawów chorobowych. Opisy takie tworzą korpusy słowne dotyczące poszczególnych technologii diagnostycznych. W podobny sposób zapisywana jest wiedza dotycząca jednostek chorobowych. Ma ona postać korpusów tekstowych, w których zawarte są opisy objawów specyficznych dla poszczególnych schorzeń. Za pomocą narzędzi przetwarzania języka naturalnego możliwe jest automatyczne wydobycie z tekstów modeli semantycznych, opisujących poszczególne technologie diagnostyczne oraz choroby. Pewne utrudnienie stanowi fakt, że wiedza medyczna może zostać zapisana w języku naturalnym na wiele sposobów. Zastosowanie formatu semantycznego pozwala wyeliminować te niejednoznaczności zapisu. W konsekwencji dostajemy ujednolicony model wiedzy medycznej, zarówno od strony wyników technologii diagnostycznych opisujących stan pacjenta, jak i wiedzy dotyczącej jednostek chorobowych. Daje to możliwość dokonania fuzji danych pochodzących z różnych źródeł (danych heterogenicznych) do postaci homogenicznej. Artykuł przedstawia metodę generowania modelu semantycznego wiedzy medycznej, wykorzystującą analizy leksykalne korpusów słownych.
The research described in article refers the medical data. Descriptions of diagnostic technologies results and descriptions of diseases form the text corpus. The corpus is the basis for building a semantic model of symptoms. A specific symptom can be written in the natural language in many ways, which is a problem for further processing of such information. There is a need to record symptoms in a uniform format. Such format allows for application of the same methods and mathematical tools to support the process of diagnosis. The paper presents method of generating a semantic model based on text corpus. Construction of the model is a part of the research, which aims to make the fusion of data from different sources (heterogeneous data) into homogeneous form.
Źródło:
Biuletyn Instytutu Systemów Informatycznych; 2012, 9; 35-43
1508-4183
Pojawia się w:
Biuletyn Instytutu Systemów Informatycznych
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Automatic Building of a Semantic Model of Disease Symptoms Based on Text Corpus
Automatyczna budowa semantycznego modelu objawów chorobowych na bazie korpusu słownego
Autorzy:
Szostek, G.
Jaszuk, M.
Walczak, A.
Powiązania:
https://bibliotekanauki.pl/articles/305881.pdf
Data publikacji:
2014
Wydawca:
Wojskowa Akademia Techniczna im. Jarosława Dąbrowskiego
Tematy:
semantic network
ontology
natural language processing
sieć semantyczna
ontologia
przetwarzanie języka naturalnego
Opis:
The research described in the article refers to the study of data from the domain of medicine. The diagnostic test results are recorded in different ways. They may take the form of tables, graphs or images. Regardless of the original data format, it is possible to draw up their verbal description, which focuses on the description of the observed symptoms. Such descriptions make up the text corpora concerning individual diagnostic technologies. Knowledge on disease entities is stored in a similar manner. It has the form of text corpora, which contain descriptions of symptoms specific to individual diseases. By using natural language processing tools semantic models can be automatically extracted from the texts to describe particular diagnostic technologies and diseases. One of the obstacles is the fact that medical knowledge can be written in a natural language in many ways. The application of the semantic format allows the elimination of record ambiguities. Ultimately, we get a unified model of medical knowledge, both from the results of diagnostic technologies describing the state of the patient and knowledge of disease entities. This gives the possibility of merging data from different sources (heterogeneous data) to a homogeneous form. The article presents a method of generating a semantic model of medical knowledge, using lexical analysis of text corpora.
Opisane w artykule badania dotyczą danych z dziedziny medycyny. Wyniki badań diagnostycznych rejestrowane są na różne sposoby. Mogą mieć postać tabel, wykresów, obrazów. Niezależnie od oryginalnego formatu danych możliwe jest sporządzenie ich opisu słownego, który koncentruje się na opisie zaobserwowanych objawów chorobowych. Opisy takie tworzą korpusy słowne dotyczące poszczególnych technologii diagnostycznych. W podobny sposób zapisywana jest wiedza dotycząca jednostek chorobowych. Ma ona postać korpusów tekstowych, w których zawarte są opisy objawów specyficznych dla poszczególnych schorzeń. Posługując się narzędziami przetwarzania języka naturalnego, możliwe jest automatyczne wydobycie z tekstów modeli semantycznych opisujących poszczególne technologie diagnostyczne oraz choroby. Pewne utrudnienie stanowi fakt, że wiedza medyczna może zostać zapisana w języku naturalnym na wiele sposobów. Zastosowanie formatu semantycznego pozwala wyeliminować te niejednoznaczności zapisu. W konsekwencji dostajemy ujednolicony model wiedzy medycznej, zarówno od strony wyników technologii diagnostycznych opisujących stan pacjenta, jak i wiedzy dotyczącej jednostek chorobowych. Daje to możliwość dokonania fuzji danych pochodzących z różnych źródeł (danych heterogenicznych) do postaci homogenicznej. Artykuł przedstawia metodę generowania modelu semantycznego wiedzy medycznej wykorzystującą analizy leksykalne korpusów słownych.
Źródło:
Biuletyn Instytutu Systemów Informatycznych; 2014, 14; 25-34
1508-4183
Pojawia się w:
Biuletyn Instytutu Systemów Informatycznych
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The impact of administrator working hours on the reliability of the Centre of Language Technology
Autorzy:
Walkowiak, T.
Pol, M.
Powiązania:
https://bibliotekanauki.pl/articles/2068897.pdf
Data publikacji:
2017
Wydawca:
Uniwersytet Morski w Gdyni. Polskie Towarzystwo Bezpieczeństwa i Niezawodności
Tematy:
reliability
repair time
working hours
language technology infrastructure
natural language processing
CLARIN-PL
Opis:
The paper presents reliability analysis of CLARIN-PL Centre of Language Technology (CLT). The CLT is a Polish part of the language technology infrastructure developed by CLARIN project. The main goal of which is to support researchers in humanities and social sciences. The infrastructure is a complex computer system that enables combining language tools with language resources into processing chains. Authors present the system structure, analyse types of faults and define the CLT reliability model. The model takes into account the fact the time gap, between the failure and the repair of the system is not exponential since repair actions are taken only when administrators are at work (assuming that administrators are not working 24/7). The model is used to estimate reliability metrics (mean time and 90th percentile of relative down time and relative partial operational time) by a use of Monte-Carlo simulation. Moreover, analysis of possible improvement in the CLT organisation and its influence on the estimated metrics is given.
Źródło:
Journal of Polish Safety and Reliability Association; 2017, 8, 1; 167--174
2084-5316
Pojawia się w:
Journal of Polish Safety and Reliability Association
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Language resources for named entity annotation in the National Corpus of Polish
Autorzy:
Savary, A.
Piskorski, J.
Powiązania:
https://bibliotekanauki.pl/articles/206388.pdf
Data publikacji:
2011
Wydawca:
Polska Akademia Nauk. Instytut Badań Systemowych PAN
Tematy:
natural language processing
proper names
named entities
corpus annotation
Polish National Corpus
SProUT
Opis:
We present the named entity annotation subtask of a project aiming at creating the National Corpus of Polish. We summarize the annotation requirements defined for this corpus, and we discuss how existing lexical resources and grammars for named entity recognition for Polish have been adapted to meet those requirements. We show detailed results of the corpus annotation using the information extraction platform SProUT. We also analyze the errors committed by our knowledge-based method and suggest its further improvements.
Źródło:
Control and Cybernetics; 2011, 40, 2; 361-391
0324-8569
Pojawia się w:
Control and Cybernetics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Weighted accuracy algorithmic approach in counteracting fake news and disinformation
Algorytmiczne podejście do dokładności ważonej w przeciwdziałaniu fałszywym informacjom i dezinformacji
Autorzy:
Bonsu, K.O.
Powiązania:
https://bibliotekanauki.pl/articles/2048986.pdf
Data publikacji:
2021
Wydawca:
Akademia Bialska Nauk Stosowanych im. Jana Pawła II w Białej Podlaskiej
Tematy:
artificial intelligence
natural language processing
machine learning algorithm
disinformation
digital revolution
fake news
Opis:
Subject and purpose of work: Fake news and disinformation are polluting information environment. Hence, this paper proposes a methodology for fake news detection through the combined weighted accuracies of seven machine learning algorithms. Materials and methods: This paper uses natural language processing to analyze the text content of a list of news samples and then predicts whether they are FAKE or REAL. Results: Weighted accuracy algorithmic approach has been shown to reduce overfitting. It was revealed that the individual performance of the different algorithms improved after the data was extracted from the news outlet websites and 'quality' data was filtered by the constraint mechanism developed in the experiment. Conclusions: This model is different from the existing mechanisms in the sense that it automates the algorithm selection process and at the same time takes into account the performance of all the algorithms used, including the less performing ones, thereby increasing the mean accuracy of all the algorithm accuracies.
Źródło:
Economic and Regional Studies; 2021, 14, 1; 99-107
2083-3725
2451-182X
Pojawia się w:
Economic and Regional Studies
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Smart and valued? ICT urban (transport) solutions in the city official communication
Autorzy:
Kauf, Sabina
Pisz, Iwona
Powiązania:
https://bibliotekanauki.pl/articles/24202577.pdf
Data publikacji:
2022
Wydawca:
Akademia Morska w Szczecinie. Wydawnictwo AMSz
Tematy:
smart city
smart mobility
Natural Language Processing
ICT
official communication
ICT technology
transport
Opis:
To optimize the everyday functioning of a city, urban authorities can implement smart city tools and solutions. Mobility is a typical field associated with the concept of a smart city. It is interesting to take a closer look at the solutions applied through the information accessible on the official websites, while exploring, at the same time, the possibilities offered by new research tools. The main objective of this work is to establish the significance of the information and communication technologies (ICT) in the process of creating smart mobility in a smart city, based on the texts posted on official websites. Using the natural language processing (NLP) methods and tools offered by the CLARIN.EU infrastructure, we verified dominant connotations with the mobility in the cities recognized as smart. The cities sample is the extract from the existing smart city rankings. To fulfil our goal, we searched for an answer to the question: What information about ICT solutions is posted on the websites of the studied cities and in what thematic contexts are they used? We looked for the results of the smart city rankings, referring to the official websites of the selected cities (a random selection from a total of 174 cities). The results show that mobility forms a distinct topic in smart cities communication, covering various kinds of transport solutions and systems, with a strong focus on the project side of this activity. The results are the part of the research “The smart city 4.0 maturity model,” conducted at the Department of Marketing and Logistics UO.
Źródło:
Zeszyty Naukowe Akademii Morskiej w Szczecinie; 2022, 72 (144); 152--161
1733-8670
2392-0378
Pojawia się w:
Zeszyty Naukowe Akademii Morskiej w Szczecinie
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Traversing the Metaverse: the new frontiers for computer-mediated communication and natural language processing
Przemierzając metawersum: nowe granice w komunikacji zapośredniczonej przez komputer i w przetwarzaniu języka naturalnego
Autorzy:
Solska, Dagmara
Powiązania:
https://bibliotekanauki.pl/articles/2195900.pdf
Data publikacji:
2022-12-31
Wydawca:
Ateneum - Akademia Nauk Stosowanych w Gdańsku
Tematy:
metaverse
virtual reality
computer mediated communication
natural language processing
cyberspace
computational linguistics
metawersum
rzeczywistość wirtualna
przetwarzanie języka naturalnego
cyberprzestrzeń
lingwistyka komputerowa
komunikacja zapośredniczona przez komputer
Opis:
The primary objective of the following paper is to explore the concept of the Metaverse encompassing the Internet revolution, the information revolution, and the artificial intelligence technology revolution, which further incorporates virtual reality (VR), augmented reality (AR), and mixed reality (MR) technologies. Due to the fact that the current, fourth wave of computing innovation can be regarded as driven by immersive, spatial technologies, the Metaverse as the socalled post-reality universe and multi-user virtual environment has a considerable potential to become the future of the digital discourse. With Natural Language Processing (NLP) conceptualized as a subfield of artificial intelligence and linguistics, the following paper argues for the inclusion of NLP-based methods in the developing discourse revolving around the transformative idea of the Metaverse. At the same time, computer-mediated communication (CMC), can potentially be extended to the new context of the extensive online world of the Metaverse.
Głównym celem niniejszego artykułu jest przyjrzenie się koncepcji metawersum obejmującej rewolucję internetową, rewolucję informacyjną i rewolucję technologii sztucznej inteligencji, która obejmuje rzeczywistość wirtualną (VR), rzeczywistość rozszerzoną (AR) i rzeczywistość mieszaną (MR). W związku z tym, że obecną, czwartą falę innowacji komputerowych można uznać za napędzaną przez immersyjne, przestrzenne technologie, metawersum postrzegane jako uniwersum postrzeczywistości i wieloużytkownikowe środowisko wirtualne ma znaczący potencjał, by stać się przyszłością dyskursu cyfrowego. Poprzez umiejscowienie przetwarzania języka naturalnego (NLP) jako poddziedziny sztucznej inteligencji i językoznawstwa, niniejszy artykuł opowiada się za włączeniem metod NLP do rozwijającego się dyskursu dotyczącego transformacyjnej metawersum. Jednocześnie komunikacja zapośredniczona przez komputer (CMC), może potencjalnie zostać rozszerzona do nowego kontekstu rozbudowanego internetowego świata metawersum.
Źródło:
Forum Filologiczne Ateneum; 2022, 10, 1; 27-38
2353-2912
2719-8537
Pojawia się w:
Forum Filologiczne Ateneum
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
O wiele więcej niż Google Translate, czyli komputerowe przetwarzanie języka naturalnego (NLP) w translatoryce i translatologii
Far Beyond Google Translate: Natural Language Processing (NLP) in Translation and Translatology
Autorzy:
Okulska, Inez
Powiązania:
https://bibliotekanauki.pl/articles/912393.pdf
Data publikacji:
2020-06-15
Wydawca:
Uniwersytet im. Adama Mickiewicza w Poznaniu
Tematy:
literary translation
machine learning
big data
natural language processing
theory of translation
computational linguistics
machine translation
przekład literacki
teoria przekładu
przetwarzanie języka naturalnego
lingwistyka komputerowa
przekład maszynowy
uczenie maszynowe
Opis:
Przewrotna jest rola postępu – im więcej technologicznego rozwoju, tym większy udział człowieka – w koncepcji, formułowaniu zadań, interpretacji wyników, nadzorze i korekcie. Hierarchia jest zachowana, człowiek wciąż nieodzowny, ale to nie znaczy, że w pewnych obszarach maszynowy potencjał rzeczywiście nie przewyższa ludzkiego i że nie warto z tej przewagi skorzystać. Przetwarzanie języka naturalnego (NLP) to dziedzina niemłoda, ale w ostatnich latach dzięki rozkwitowi metod uczenia głębokiego (deep learning), mody na maszynowe wnioskowanie (data/knowledge mining) czy nowym sprzętowym interfejsom (m.in. zaawansowane rozpoznawanie obrazu) komputerowa analiza tekstu przeżywa istny renesans. W odniesieniu do translacji przyjęło się mówić i pisać głównie o coraz doskonalszych lub właśnie zupełnie niemożliwych algorytmach dla kolejnych par języków czy coraz większej precyzji samego tłumaczenia. Niniejszy artykuł przedstawia natomiast nieco szersze spektrum procesu tłumaczenia i przygląda się elementom przekładowi towarzyszącym (jak choćby krytyka), w których wykorzystanie metod NLP możeprzynieść nowe, ciekawe wyniki. Wyniki, których ze względu na ograniczoną moc obliczeniową człowiek nie jest w stanie osiągnąć. Omówione zostały takie aspekty jak wektorowa reprezentacja języka, stylometria i jej zastosowania czy analiza wielkich zbiorów danych – wszystko to na potrzeby szeroko rozumianychtranslacji i translatologii.
The more technological development, the greater the participation of the human – in formulating tasks and problems, supervising and improving automated processes and interpreting their outcomes. The hierarchy is preserved, humans are still indispensable, but it does not mean that in certain areas of machinery the potential does not really exceed that of the human and that this advantage is not worth exploiting. Natural language processing (NLP) is not a young field, but in recent years, thanks to the thrive of deep learning methods, data and knowledge mining or new human-machine interfaces, computer text analysis is experiencing a real renaissance. As far as translation is concerned, it is mostly algorithms for machine translation that are being discussed. This article, on the other hand, presents a slightly broader spectrum of the translation process and looks at the accompanying elements (such as criticism) in which the use of NLP methods may bring new and interesting results. Results which, due to limited computing power, humans are unable to achieve. The discussion in the paper covers such aspects as the vector representation of language,stylometry and its application, or the analysis of large data sets – all for the purposes of translation and translatology.
Źródło:
Porównania; 2020, 26, 1; 283-297
1733-165X
Pojawia się w:
Porównania
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The implementation of the example-based machine translation technique for Norwegian-to-Polish automatic translation system
Autorzy:
Gajer, M.
Powiązania:
https://bibliotekanauki.pl/articles/970363.pdf
Data publikacji:
2004
Wydawca:
Polska Akademia Nauk. Instytut Badań Systemowych PAN
Tematy:
przetwarzanie języka naturalnego
lingwistyka komputerowa
tłumaczenie komputerowe
natural language processing
computational linguistics
machine translation
Opis:
High-quality machine translation between human languages has for a long time been an unattainable dream for many computer scientists involved in this fascinating and interdisciplinary field of application of computers. The quite recently developed example-based machine translation technique seems to be a serious alternative to the existing automatic translation techniques. In the paper the usage of the example based machine translation technique for the development, of a system, which would be able to translate an unrestricted Norwegian text into Polish is proposed. The new approach to the example-based machine translation technique that takes into account the peculiarity of the Polish grammar is developed. The obtained primary results of development of the proposed system seem to be very promising and appear to be a step made in the right direction towards a fully-automatic high quality Norwegian-into-Polish machine translation system aimed for an unrestricted text.
Źródło:
Control and Cybernetics; 2004, 33, 2; 357-386
0324-8569
Pojawia się w:
Control and Cybernetics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
W kierunku automatycznej klasyfikacji języków naturalnych
Autorzy:
Handzel, Zbigniew
Gajer, Mirosław
Grabiński, Tadeusz
Luty, Zbigniew
Surowiec, Anna
Powiązania:
https://bibliotekanauki.pl/articles/2147414.pdf
Data publikacji:
2021-12-06
Wydawca:
Wyższa Szkoła Ekonomii i Informatyki w Krakowie
Tematy:
przetwarzanie języka naturalnego
lingwistyka komputerowa
klasyfikacja języków
computational linguistics
natural language processing
language classification
Opis:
Streszczenie: Klasyfikacja języków naturalnych jest jednym z głównych zadań językoznawstwa. Spośród różnych typów klasyfikacji języków najbardziej wiarygodną i miarodajną wydaje się być klasyfikacja typologiczna, która łączy języki w jednostki większego rzędu na podstawie podobieństwa ich cech strukturalnych. Podobieństwo typologiczne języków może być wynikiem zarówno ich pochodzenia od wspólnego przodka, czyli prajęzyka, jak i występujących zapożyczeń międzyjęzykowych dotyczących zarówno leksyki, jak i struktur składniowych. W artykule zamieszczono propozycję budowy systemu przeznaczonego do realizacji automatycznej klasyfikacji języków naturalnych ze względu na ich stopień podobieństwa typologicznego. Opracowany przez autorów system uwzględnia obecnie 72 języki należące głównie do indoeuropejskiej rodziny językowej. W systemie uwzględniono ponadto kilka języków należących do innych rodzin językowych oraz wybrane języki sztuczne typu naturalistycznego. Autorzy zaprezentowali program komputerowy służący do wyznaczania liczbowej miary stopnia wzajemnego podobieństwa systemów zaimków osobowych występujących w różnych językach świata. W przyszłości planowana jest budowa analogicznych systemów przeznaczonych do wyznaczania miary podobieństwa języków na podstawie automatycznej analizy wzorców koniugacyjnych czasowników oraz wzorców deklinacyjnych rzeczowników i przymiotników wybranych języków
Classification of natural languages is one of the main tasks of linguistics. Of the various types of language classification, the most reliable and authoritative seems to be the typological classification, which combines languages into units of a higher order on the basis of similarity of their structural features. The typological similarity of languages may be a result of both their origin from a common ancestor, i.e. a proto-language, and interlingual borrowings concerning both lexis and syntactic structures. The paper presents a proposal for the construction of a system intended for the automatic classification of natural languages according to their degree of typological similarity. The system developed by the authors currently includes 72 languages belonging mainly to the Indo-European language family. The system also includes several languages belonging to other language families and selected artificial languages of a naturalistic type. The authors have presented a computer programme for determining a numerical measure of the degree of mutual similarity between the systems of personal pronouns occurring in different languages of the world. In the future it is planned to build analogous systems to determine the measure of similarity between languages on the basis of automatic analysis of verb conjugation patterns and declension patterns of nouns and adjectives of selected languages.
Źródło:
Zeszyty Naukowe Wyższej Szkoły Ekonomii i Informatyki w Krakowie; 2021, 17; 53-70
1734-5391
Pojawia się w:
Zeszyty Naukowe Wyższej Szkoły Ekonomii i Informatyki w Krakowie
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The image of a vocational school teacher in the eyes of students and its relationship with the effectiveness of education
Autorzy:
Pardej, Katarzyna
Waszkowski, Robert
Powiązania:
https://bibliotekanauki.pl/articles/36786100.pdf
Data publikacji:
2022-05-09
Wydawca:
Wydawnictwo Naukowe Chrześcijańskiej Akademii Teologicznej w Warszawie
Tematy:
vocational education
vocational teacher
effective teaching
Natural Language Processing
sentiment analysis
machine learning
Opis:
The article discusses the competencies of vocational education teachers, as well as discusses the results of own research, which aimed to determine three types of teachers conceptualized by students - the most liked, the least liked, and the dream one. The research used the interview method, where the research technique was an interview, and the research tool was an interview questionnaire. The students' statements were analyzed using the Python Natural Language Toolkit used for natural language processing. In this way, the most common words used by students in describing teachers were selected. As a result, the personal qualities and pedagogical competencies of mechatronic teachers that students approve and disapprove of, as well as those that they lack and which would make a difference to the effectiveness of education, were identified.
Źródło:
Studia z Teorii Wychowania; 2022, XIII(1(38)); 121-140
2083-0998
2719-4078
Pojawia się w:
Studia z Teorii Wychowania
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Elektroniczny Korpus Tekstów Polskich z XVII i XVIII w. – problemy teoretyczne i warsztatowe
Autorzy:
Gruszczyński, Włodzimierz
Adamiec, Dorota
Bronikowska, Renata
Wieczorek, Aleksandra
Powiązania:
https://bibliotekanauki.pl/articles/1630441.pdf
Data publikacji:
2020
Wydawca:
Towarzystwo Kultury Języka
Tematy:
electronic text corpus
historical corpus
17th-18th-century Polish
natural language processing
Opis:
This paper presents the Electronic Corpus of 17th- and 18th-century Polish Texts (KorBa) – a large (13.5-million), annotated historical corpus available online. Its creation was modelled on the assumptions of the National Corpus of Polish (NKJP), yet the specifi c nature of the historical material enforced certain modifi cations of the solutions applied in NKJP, e.g. two forms of text representation (transliteration and transcription) were introduced, the principle of designating foreign-language fragments was adopted, and the tagset was adapted to the description of the grammatical structure of the Middle Polish language. The texts collected in KorBa are diversified in chronological, geographical, stylistic, and thematic terms although, due to e.g. limited access to the material, the postulate of representativeness and sustainability of the corpus was not fully implemented. The work on the corpus was to a large extent automated as a result of using natural language processing tools.
Źródło:
Poradnik Językowy; 2020, 777, 8; 32-51
0551-5343
Pojawia się w:
Poradnik Językowy
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Ontology Extraction from Software Requirements Using Named-Entity Recognition
Autorzy:
Kocerka, Jerzy
Krześlak, Michał
Gałuszka, Adam
Powiązania:
https://bibliotekanauki.pl/articles/2201736.pdf
Data publikacji:
2022
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
engineering requirements
ontology extraction
named-entity recognition
classification and terminology
terminology
natural language processing
NLP
Opis:
With the software playing a key role in most of the modern, complex systems it is extremely important to create and keep the software requirements precise and non-ambiguous. One of the key elements to achieve such a goal is to define the terms used in a requirement in a precise way. The aim of this study is to verify if the commercially available tools for natural language processing (NLP) can be used to create an automated process to identify whether the term used in a requirement is linked with a proper definition. We found out, that with a relatively small effort it is possible to create a model that detects the domain specific terms in the software requirements with a precision of 87 %. Using such model it is possible to determine if the term is followed by a link to a definition.
Źródło:
Advances in Science and Technology. Research Journal; 2022, 16, 3; 207--212
2299-8624
Pojawia się w:
Advances in Science and Technology. Research Journal
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Analiza możliwości i ograniczeń systemów translacji automatycznej wspomaganej przez człowieka na przykładzie systemu tłumaczącego z języka włoskiego na polski
The analysis of possibilities and frontiers of the human-aided machine translation system on the example of Italian-to-Polish translations system
Autorzy:
Gajer, M.
Powiązania:
https://bibliotekanauki.pl/articles/320407.pdf
Data publikacji:
2006
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
translacja automatyczna
przetwarzanie języka naturalnego
sztuczna inteligencja
machine translation
computational linguistics
natural language processing
Opis:
Translacja automatyczna jest dyscypliną nauki dostarczającą wiedzy o tym, jak programować komputery, aby były one w stanie dokonywać automatycznych przekładów pomiędzy wybranymi językami naturalnymi. Translacja automatyczna była również jedną z pierwszych aplikacji, jakie zostały zaproponowane dla komputerów. Niestety szybko okazało się, że zadanie translacji automatycznej jest znacznie trudniejsze, ale zarazem o wiele ciekawsze z naukowego punktu widzenia, niż pierwotnie sądzono. W artykule omówiono podstawowe przyczyny powodujące, że translacja automatyczna jest zadaniem tak niezwykle trudnym. Omówiono również najbardziej obiecujące kierunki rozwoju systemów translacji automatycznej. W dalszej części artykułu przedstawiono podstawowe koncepcje związane z nowym, zaproponowanym przez autora podejściem do zagadnień translacji automatycznej. Zamieszczone w artykule rozważania zilustrowano na przykładzie eksperymentalnego systemu translacji automatycznej, dokonującego przekładu zdań zapisanych w języku włoskim na polski.
Machine translation is a branch of science that teaches us how to program the computers, so as they were able to translate between different human languages. Machine translation was also one of the first application that was proposed for computers. Nonetheless, it soon appeared that the task of machine translation is much more difficult, but also much more interesting from the scientific point of view, than one had ever thought before. In the paper it is thoroughly explained why machine translation is so extremely hard. The most promising directions of development of machine translation systems are also briefly described. The special attention is paid to machine translation systems that are developed for Polish language. The other part of the paper is devoted to some practical experiments of implementation of human-aided machine translation technique for the system that translates from Italian into Polish. The way in which the system operates is illustrated on numerous examples. Italian language belongs to the group of Romance languages at its main feature is a variety of flexion forms of verbs. In the paper the algorithm for Italian flexion is described and it is illustrated on some examples.
Źródło:
Elektrotechnika i Elektronika; 2006, 25, 1; 10-37
1640-7202
Pojawia się w:
Elektrotechnika i Elektronika
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Computer system architecture for Polish-language documents search with the use of queries in a natural language
Koncepcja architektury systemu komputerowego wyszukiwania dokumentów w języku polskim przy pomocy zapytań w języku naturalnym
Autorzy:
Kwiatkowski, G.
Michalak, M.
Powiązania:
https://bibliotekanauki.pl/articles/1361028.pdf
Data publikacji:
2016
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
diagnostyka maszyn
przetwarzanie języka naturalnego
wyszukiwanie informacji
machine diagnostics
natural language processing
searching for information
Opis:
The article features an architecture concept of a system to search for information in text documents with the use of natural-language queries. The basic element of the proposed solution is the application of query expansion as a method to improve the quality of achieved results. As there are no such tools for the Polish language, the authors proposed how to prepare suitable assets from input data for this purpose. The prepared system will be applied for information search in specialized documents, such as technical and diagnostic documentation of mining machines.
Artykuł przestawia koncepcję architektury systemu wyszukiwania informacji w dokumentach tekstowych, z wykorzystaniem zapytań w języku naturalnym. Zasadniczym elementem proponowanego rozwiązania jest wykorzystanie metody ekspansji zapytań, jako sposobu na poprawę jakości uzyskiwanych wyników. Ponieważ brak jest tego typu narzędzi dedykowanych dla języka polskiego, zaproponowano także sposób przygotowania odpowiednich do tego celu zasobów z danych wejściowych. Przygotowywany system znajdzie zastosowanie w wyszukiwaniu informacji w dokumentach specjalistycznych, jakimi są dokumentacje techniczne i diagnostyczne maszyn górniczych.
Źródło:
Mining – Informatics, Automation and Electrical Engineering; 2016, 54, 3; 16-23 [tekst ang.], 67-75 [tekst pol.]
2450-7326
2449-6421
Pojawia się w:
Mining – Informatics, Automation and Electrical Engineering
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Adaptive information extraction from structured text documents
Autorzy:
Ożdżyński, P.
Zakrzewska, D.
Powiązania:
https://bibliotekanauki.pl/articles/95029.pdf
Data publikacji:
2014
Wydawca:
Szkoła Główna Gospodarstwa Wiejskiego w Warszawie. Wydawnictwo Szkoły Głównej Gospodarstwa Wiejskiego w Warszawie
Tematy:
natural language processing
information extraction
tagging
named entity recognition
przetwarzanie języka naturalnego
zdobywanie informacji
tagowanie
Opis:
Effective analysis of structured documents may decide on management information systems performance. In the paper, an adaptive method of information extraction from structured text documents is considered. We assume that documents belong to thematic groups and that required set of information may be determined ”apriori”. The knowledge of document structure allows to indicate blocks, where certain information is more probable to appear. As the result structured data, which can be further analysed are obtained. The proposed solution uses dictionaries and flexion analysis, and may be applied to Polish texts. The presented approach can be used for information extraction from official letters, information sheets and product specifications.
Źródło:
Information Systems in Management; 2014, 3, 4; 261-272
2084-5537
2544-1728
Pojawia się w:
Information Systems in Management
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Rola analizy sieci społecznych w odkrywaniu narracyjnej struktury fikcji leterackiej
Social networks analysis in discovering the narrative structure of literary fiction
Autorzy:
Jarynowski, A.
Boland, S.
Powiązania:
https://bibliotekanauki.pl/articles/305879.pdf
Data publikacji:
2013
Wydawca:
Wojskowa Akademia Techniczna im. Jarosława Dąbrowskiego
Tematy:
analiza sieci społecznych
przetwarzanie języka naturalnego
percepcja narracji
social network analysis
natural language processing
narration
Opis:
Narzędzia matematyczne rozwinięte w celu opisu układów z łożonych z powodzeniem są używane w naukach społecznych oraz coraz częściej znajdują zastosowanie w humanistyce. W prezentowanym interdyscyplinarnym projekcie pragniemy wykorzystać metody analizy sieciowej, aby lepiej zrozumieć sposób kreacji oraz przedstawienia świata przez autorów utworów literackich. Jednakże percepcja takiego świata zależy od subiektywnej wizji czytelnika, więc zwróciliśmy szczególną uwagę na różne sposoby ekstrakcji sieci powiązań społecznych z fikcyjnej rzeczywistości. Celem badań było odczytywanie różnych interakcji społecznych w tekście przez porównanie sieci otrzymanych przez algorytmy przetwarzania języka naturalnego (ang.natural language processing NLP) z tymi odtworzonymi na podstawie kwestionariuszy wypełnionych przez czytelników. Sieci dialogów, czy uczestnictwa w tej samej scenie zostały już opisane przez naukowców z amerykańskich uniwersytetów Stanford i Columbia, ale wciąż brakowało analizy relacji na ogólniejszym poziomie (interakcje międzyludzkie nie ograniczają się jedynie do dialogów bądź przebywania w tym samym miejscu). Zaproponowaliśmy kilka metod NLP w celu detekcji tych interakcji i skonfrontowaliśmy je z ludzkim postrzeganiem. Przy okazji odkryliśmy obszary teorii literatury, w których nie da się wykorzystać analizy sieciowej (np. interakcje nawiązujące do fabuły nie tworzą klasycznego trójkąta z punktem kulminacyjnym znanym z teorii literatury).
In our paper we would like to make a cross-disciplinary leap and use the tools of network theory to understand and explore narrative structure in literary fiction, an approach that is still underestimated. However, the systems in fiction are sensitive to reader’s subjectivity and attention must to be paid to different methods of extracting networks. The project aims at investigating into different ways social interactions are, read in texts by comparing networks produced by automated algorithms-natural language processing (NLP) with those created by surveying more subjective human responses. Conversation networks from fiction have been already extracted by scientists, but the more general framework surrounding these interactions was missing. We propose several NLP methods for detecting interactions and test them against a range of human perceptions. In doing so, we have pointed to some limitations of using network analysis to test literary theory (e.g. interaction, which corresponds to the plot, does not form climax).
Źródło:
Biuletyn Instytutu Systemów Informatycznych; 2013, 12; 35-42
1508-4183
Pojawia się w:
Biuletyn Instytutu Systemów Informatycznych
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Geolocalization of 19th-century villages and cities mentioned in geographical dictionary of the kingdom of Poland
Autorzy:
Jaśkiewicz, G.
Powiązania:
https://bibliotekanauki.pl/articles/305699.pdf
Data publikacji:
2013
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
natural language processing
geolocalization
statistics
information extraction
Geographical Dictionary of Polish Kingdom and Other Slavic Countries
Opis:
This article presents a method of the rough estimation of geographical coordinates of villages and cities, which is described in the 19th-Century geographical encyclopedia entitled: “The Geographical Dictionary of the Polish Kingdom and Other Slavic Countries”[18]. Described are the algorithm function for estimating location, the tools used to acquire and process necessary information, and the context of this research.
Źródło:
Computer Science; 2013, 14 (3); 423-442
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Adaptive Rider Feedback Artificial Tree Optimization-Based Deep Neuro-Fuzzy Network for Classification of Sentiment Grade
Autorzy:
Jasti, Sireesha
Kumar, G.V.S. Raj
Powiązania:
https://bibliotekanauki.pl/articles/2200961.pdf
Data publikacji:
2023
Wydawca:
Instytut Łączności - Państwowy Instytut Badawczy
Tematy:
deep learning network
feedback artificial tree
natural language processing (NLP)
rider optimization algorithm
sentiment grade classification
Opis:
Sentiment analysis is an efficient technique for expressing users’ opinions (neutral, negative or positive) regarding specific services or products. One of the important benefits of analyzing sentiment is in appraising the comments that users provide or service providers or services. In this work, a solution known as adaptive rider feedback artificial tree optimization-based deep neuro-fuzzy network (RFATO-based DNFN) is implemented for efficient sentiment grade classification. Here, the input is pre-processed by employing the process of stemming and stop word removal. Then, important factors, e.g. SentiWordNet-based features, such as the mean value, variance, as well as kurtosis, spam word-based features, term frequency-inverse document frequency (TF-IDF) features and emoticon-based features, are extracted. In addition, angular similarity and the decision tree model are employed for grouping the reviewed data into specific sets. Next, the deep neuro-fuzzy network (DNFN) classifier is used to classify the sentiment grade. The proposed adaptive rider feedback artificial tree optimization (A-RFATO) approach is utilized for the training of DNFN. The A-RFATO technique is a combination of the feedback artificial tree (FAT) approach and the rider optimization algorithm (ROA) with an adaptive concept. The effectiveness of the proposed A-RFATO-based DNFN model is evaluated based on such metrics as sensitivity, accuracy, specificity, and precision. The sentiment grade classification method developed achieves better sensitivity, accuracy, specificity, and precision rates when compared with existing approaches based on Large Movie Review Dataset, Datafiniti Product Database, and Amazon reviews.
Źródło:
Journal of Telecommunications and Information Technology; 2023, 1; 37--50
1509-4553
1899-8852
Pojawia się w:
Journal of Telecommunications and Information Technology
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Dynamic verbs in the Wordnet of Polish
Autorzy:
Dziob, Agnieszka
Piasecki, Maciej
Powiązania:
https://bibliotekanauki.pl/articles/677246.pdf
Data publikacji:
2018
Wydawca:
Polska Akademia Nauk. Instytut Slawistyki PAN
Tematy:
plWordNet
Wordnet of Polish
lexico-semantic relations
Polish language
dynamic verbs
verbs in wordnet
natural language processing
Opis:
Dynamic verbs in the Wordnet of PolishThe paper presents patterns of co-occurrences of wordnet relations involving verb lexical units in plWordNet - a large wordnet of Polish. The discovered patterns reveal tendencies of selected synset and lexical relations to form regular circular structures of clear semantic meanings. They involve several types of relations, e.g., presupposition, cause, processuality and antonymy, do not have a necessary character (there are exceptions), but can be used in wordnet diagnostics and guidelines for wordnet editors. The analysis is illustrated with numerous positive and negative examples, as well as statistics for verb relations in plWordNet 4.0 emo. Some attempts to a more general, linguistic explanation of the observed phenomena are also made. As a background, plWordNet model of linguistic character is briefly recollected. A special attention is given to the verb part. In addition the description of dynamic verbs by relations and features is discussed in details including relation definitions and substitution tests. Czasowniki dynamiczne w Słowosieci - wordnecie języka polskiego W artykule zostały przedstawione wzorce współwystępowania relacji leksykalno-semantycznych obejmujących czasownikowe jednostki leksykalne w ramach Słowosieci - wielkiego relacyjnego słownika języka polskiego, wordnetu języka polskiego. Tłem obserwacji jest Słowosieć 4.0 emo, dla której omówiono skrótowo system relacji czasownikowych wraz ze statystykami. Szczególną uwagę autorzy poświęcili czasownikom dynamicznym i ich typowym relacjom, dla których przedstawiono testy substytucji z wytycznych do relacyjnego opisu czasownika, zdefiniowanych na potrzeby edycji Słowosieci przez lingwistów. Opisane w artykule wzorce współwystępowania ukazują tendencje niektórych relacji synsetów (tj. zbiorów synonimów) i jednostek leksykalnych (m.in. presupozycji, kauzacji, procesywności i antonimii) do tworzenia regularnych struktur, specyfikujących znaczenie wszystkich jednostek/synsetów, połączonych za pomocą danych relacji. Współwystępowania relacji wg wzorców nie mają charakteru obligatoryjnego, dlatego też w artykule przedstawiono zarówno pozytywne, jak i negatywne przykłady jednostek i synsetów, połączonych ze sobą za pomocą relacji współwystępujących, jak i pewne uwagi natury ogólnej, wskazujące na językowy charakter obserwowanego zjawiska. Oprócz znaczenia poznawczego, związanego ze współzależnościami, jakie zachodzą w obrębie systemu językowego, opis tych regularności ma również znaczenie praktyczne - może być wykorzystany przy diagnostyce wordnetu oraz w wytycznych dla lingwistów.
Źródło:
Cognitive Studies; 2018, 18
2392-2397
Pojawia się w:
Cognitive Studies
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Najlepsze narzędzie do zwalczania fejków (i dlaczego nie działa)
Best tools for detecting fake news (and why they do not work)
Autorzy:
Balcerzak, Bartłomiej
Powiązania:
https://bibliotekanauki.pl/articles/1849514.pdf
Data publikacji:
2020-09-30
Wydawca:
Instytut Dyskursu i Dialogu
Tematy:
fake news
informatyka społeczna
uczenie maszynowe
przetwarzanie języka naturalnego
computational social science
natural language processing
machine learning
Opis:
Artykuł stanowi przybliżenie technik informatycznych wykorzystywanych w procesie rozpoznawania fałszywych wiadomości. Równocześnie wskazuje na społeczne i psychologiczne czynniki wpływające na popularność fake news, oraz wskazuje na społeczne konsekwencje stosowania różnych metod wykrywania Fake News.
The article provides a review of various technologies used in detecting fake news online. It also provides discussion of sociological and psychological factors which influence the popularity of fake news. Finally a discussion of political consequences of the use of said technologies is provided.
Źródło:
Dyskurs & Dialog; 2020, II, 3 (5); 9-21
2658-2368
2658-2406
Pojawia się w:
Dyskurs & Dialog
Dostawca treści:
Biblioteka Nauki
Artykuł

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies