Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "natural language processing" wg kryterium: Wszystkie pola


Wyświetlanie 1-67 z 67
Tytuł:
Benchmarking high performance architectures with natural language processing algorithms
Benchmarking architektur wysokiej wydajności algorytmami przetwarzania języka naturalnego
Autorzy:
Kuta, M.
Kitowski, J.
Powiązania:
https://bibliotekanauki.pl/articles/305469.pdf
Data publikacji:
2011
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
benchmarking
tagowanie częściami mowy
klasteryzacja dokumentów
przetwarzanie języka naturalnego
architektury wysokiej wydajności
part-of-speech tagging
document clustering
natural language processing
high performance architectures
Opis:
Natural Language Processing algorithms are resource demanding, especially when tuning to inflective language like Polish is needed. The paper presents time and memory requirements of part of speech tagging and clustering algorithms applied to two corpora of the Polish language. The algorithms are benchmarked on three high performance platforms of different architectures. Additionally sequential versions and OpenMP implementations of clustering algorithms were compared.
Algorytmy przetwarzania języka naturalnego mają duże zapotrzebowanie na zasoby komputerowe, szczególnie gdy wymagane jest dostosowanie algorytmu do języka fleksyjnego jakim jest np. język polski. Artykuł przedstawia wymagania czasowe i pamięciowe algorytmów tagowania częściami mowy oraz algorytmów klasteryzacji zastosowanych do dwóch korpusów języka polskiego. Dokonano benchmarkingu algorytmów na trzech platformach wysokiej wydajności reprezentujących różne architektury. Dodatkowo porównano wersję sekwencyjną oraz implementacje OpenMP algorytmów klasteryzacji.
Źródło:
Computer Science; 2011, 12; 19-31
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Sémantique lexicale et corpus : l’étude du lexique transdisciplinaire des écrits scientifiques
Autorzy:
Tutin, Agnès
Powiązania:
https://bibliotekanauki.pl/articles/605411.pdf
Data publikacji:
2008
Wydawca:
Uniwersytet Marii Curie-Skłodowskiej. Wydawnictwo Uniwersytetu Marii Curie-Skłodowskiej
Tematy:
corpus linguistics
natural language processing
Opis:
This paper deals with a corpus-based linguistic study in lexical semantics. Our topic is the general scientific lexicon, the cross-disciplinary lexicon peculiar to the academic genre. We show how the use of a large corpus enables to develop an inventory of this vocabulary and present the first semantic treatments performed with the help of the corpus, with a first experiment in natural language processing..
Źródło:
Lublin Studies in Modern Languages and Literature; 2008, 32; 242-260
0137-4699
Pojawia się w:
Lublin Studies in Modern Languages and Literature
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Traitement automatique de la polysémie
Machine-made treatment of polysemy
Autorzy:
Gross, Gaston
Powiązania:
https://bibliotekanauki.pl/articles/1048808.pdf
Data publikacji:
2015-01-01
Wydawca:
Uniwersytet im. Adama Mickiewicza w Poznaniu
Tematy:
polysemy
natural language processing
lexicon-grammar
Opis:
It has been an empirical fact that almost all the words are polysemous. A standard dictionary such as the Petit Robert lists 60,000 entries which correspond to 300,000 meanings. Thus, in this particular dictionary one word is paired with five different senses on average. Moreover, what is being dealt with here is no more than a general reference work, designed for a daily use. It contains only most frequent and general items, but disregards all other available meanings. In what follows, contextual properties will be demonstrated to be able to set apart each instance of polysemy, thus offering an effectual tool likely to do away with ambiguities.
Źródło:
Studia Romanica Posnaniensia; 2015, 42, 1; 15-33
0137-2475
2084-4158
Pojawia się w:
Studia Romanica Posnaniensia
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Fantinuoli, Claudio (Hg.) (2018): Interpreting and technology. (Translation and Multilingual Natural Language Processing 11). Berlin: Language Science Press. 149 S.
Autorzy:
Ustaszewski, Michael
Powiązania:
https://bibliotekanauki.pl/articles/1191732.pdf
Data publikacji:
2020
Wydawca:
Uniwersytet Wrocławski. Oficyna Wydawnicza ATUT – Wrocławskie Wydawnictwo Oświatowe
Źródło:
Studia Translatorica; 2020, 11; 212-218
2084-3321
2657-4802
Pojawia się w:
Studia Translatorica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Specialized fully automatic machine translation system delivering high quality of translated texts
Autorzy:
Gajer, M.
Powiązania:
https://bibliotekanauki.pl/articles/1943201.pdf
Data publikacji:
2009
Wydawca:
Politechnika Gdańska
Tematy:
natural language processing
machine translation
translation patterns
Opis:
The paper concerns machine translation systems that form a discipline of computer science and are aimed at writing computer programs that are able to translate text between natural languages. In the paper the author argues that it is not possible to build a machine translation system that would be able to translate any kind of documents with a sufficiently high quality. Instead, the author proposes a specialized machine translation system the aim of which is to translate financial reports concerning the global currency exchange market – forex. For the purpose of building the above mentioned system, the author has proposed his own machine translation method of translation patterns. The translation patterns allow transferring the translation process from the level of single words to the level of words chunks. The translation patterns play a very important role in the case of such an inflectional language as Polish because they make it possible to choose the correct form of Polish translation of foreign phrases depending whether they perform the verb or object function in the sentence. The high quality of the specialized machine translation system developed by the author was proved with many experiments the results of which are demonstrated in the paper. The quality of translation is so high that the Polish translations of English reports from the global currency exchange market can be published on Web pages without any additional changes. Thus, it is possible to totally eliminate the human translator from the process of translation of texts which are highly stereotypical and oriented to a selected and narrow domain.
Źródło:
TASK Quarterly. Scientific Bulletin of Academic Computer Centre in Gdansk; 2009, 13, 4; 347-354
1428-6394
Pojawia się w:
TASK Quarterly. Scientific Bulletin of Academic Computer Centre in Gdansk
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The Implementation of the example-based machine translation technique for French-to-Polish automatic translation system
Autorzy:
Gajer, M.
Powiązania:
https://bibliotekanauki.pl/articles/1986914.pdf
Data publikacji:
2002
Wydawca:
Politechnika Gdańska
Tematy:
natural language processing
computational linguistics
machine translation
Opis:
High-quality machine translation between human languages has for a long time been an unattainable dream for many computer scientists involved in this fascinating and interdisciplinary field of computer application. The developed quite recently example-based machine translation technique seems to be a serious alternative to the existing automatic translation techniques. In the paper the usage of the example based machine translation technique for the development of system which would be able to translate an unrestricted French text into Polish is proposed. The new approach to the example-based machine translation technique that takes into account the peculiarity of the Polish grammar is developed. The obtained primary results of the development of the proposed system seem to be very promising and appear to be a step made in the right direction towards a fully-automatic high quality French-into-Polish machine translation system for unrestricted text.
Źródło:
TASK Quarterly. Scientific Bulletin of Academic Computer Centre in Gdansk; 2002, 6, 3; 523-544
1428-6394
Pojawia się w:
TASK Quarterly. Scientific Bulletin of Academic Computer Centre in Gdansk
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Application of linguistic cues in the analysis of language of hate groups
Autorzy:
Balcerzak, B.
Jaworski, W.
Powiązania:
https://bibliotekanauki.pl/articles/952938.pdf
Data publikacji:
2015
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
hate speech
natural language processing
propaganda
machine learning
Opis:
Hate speech and fringe ideologies are social phenomena that thrive on-line. Members of the political and religious fringe are able to propagate their ideas via the Internet with less effort than in traditional media. In this article, we attempt to use linguistic cues such as the occurrence of certain parts of speech in order to distinguish the language of fringe groups from strictly informative sources. The aim of this research is to provide a preliminary model for identifying deceptive materials online. Examples of these would include aggressive marketing and hate speech. For the sake of this paper, we aim to focus on the political aspect. Our research has shown that information about sentence length and the occurrence of adjectives and adverbs can provide information for the identification of differences between the language of fringe political groups and mainstream media.
Źródło:
Computer Science; 2015, 16 (2); 145-156
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Compressing sentiment analysis CNN models for efficient hardware processing
Autorzy:
Wróbel, Krzysztof
Karwatowski, Michał
Wielgosz, Maciej
Pietroń, Marcin
Wiatr, Kazimierz
Powiązania:
https://bibliotekanauki.pl/articles/305234.pdf
Data publikacji:
2020
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
natural language processing
convolutional neural networks
FPGA
compression
Opis:
Convolutional neural networks (CNNs) were created for image classification tasks. Shortly after their creation, they were applied to other domains, including natural language processing (NLP). Nowadays, solutions based on artificial intelligence appear on mobile devices and embedded systems, which places constraints on memory and power consumption, among others. Due to CNN memory and computing requirements, it is necessary to compress them in order to be mapped to the hardware. This paper presents the results of the compression of efficient CNNs for sentiment analysis. The main steps involve pruning and quantization. The process of mapping the compressed network to an FPGA and the results of this implementation are described. The conducted simulations showed that the 5-bit width is enough to ensure no drop in accuracy when compared to the floating-point version of the network. Additionally, the memory footprint was significantly reduced (between 85 and 93% as compared to the original model).
Źródło:
Computer Science; 2020, 21 (1); 25-41
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Retrieval and interpretation of textual geolocalized information based on semantic geolocalized relations
Autorzy:
Korczyński, W.
Powiązania:
https://bibliotekanauki.pl/articles/305820.pdf
Data publikacji:
2015
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
geolocalization
geolocalized dictionary
geolocalized relations
natural language processing
Opis:
This paper describes a method for geolocalized information retrieval from natural language text and its interpretation by assigning it geographic coordinates. Proof-of-concept implementation is discussed, along with a geolocalized dictionary stored in a PostGIS/PostgreSQL spatial relational database. The discussed research focuses on the strongly inflectional Polish language; hence, additional complexity had to be taken into account. The presented method has been evaluated with the use of diverse metrics.
Źródło:
Computer Science; 2015, 16 (4); 395-414
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Knowledge graphs effectiveness in Neural Machine Translation improvement
Autorzy:
Ahmadnia, Benyamin
Dorr, Bonnie J.
Kordjamshidi, Parisa
Powiązania:
https://bibliotekanauki.pl/articles/1839251.pdf
Data publikacji:
2020
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
natural language processing
neural machine translation
knowledge graph representation
Opis:
Maintaining semantic relations between words during the translation process yields more accurate target-language output from Neural Machine Translation (NMT). Although difficult to achieve from training data alone, it is possible to leverage Knowledge Graphs (KGs) to retain source-language semantic relations in the corresponding target-language translation. The core idea is to use KG entity relations as embedding constraints to improve the mapping from source to target. This paper describes two embedding constraints, both of which employ Entity Linking (EL)—assigning a unique identity to entities—to associate words in training sentences with those in the KG: (1) a monolingual embedding constraint that supports an enhanced semantic representation of the source words through access to relations between entities in a KG; and (2) a bilingual embedding constraint that forces entity relations in the source-language to be carried over to the corresponding entities in the target-language translation. The method is evaluated for English-Spanish translation exploiting Freebase as a source of knowledge. Our experimental results demonstrate that exploiting KG information not only decreases the number of unknown words in the translation but also improves translation quality
Źródło:
Computer Science; 2020, 21 (3); 299-318
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Cluo: web-scale text mining system for open source intelligence purposes
Autorzy:
Maciołek, P.
Dobrowolski, G.
Powiązania:
https://bibliotekanauki.pl/articles/305361.pdf
Data publikacji:
2013
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
text mining
big data
OSINT
natural language processing
monitoring
Opis:
The amount of textual information published on the Internet is considered to be in billions of web pages, blog posts, comments, social media updates and others. Analyzing such quantities of data requires high level of distribution – both data and computing. This is especially true in case of complex algorithms, often used in text mining tasks. The paper presents a prototype implementation of CLUO – an Open Source Intelligence (OSINT) system, which extracts and analyzes significant quantities of openly available information.
Źródło:
Computer Science; 2013, 14 (1); 45-62
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
An English neural network that learns texts, finds hidden knowledge, and answers questions
Autorzy:
Ke, Y.
Hagiwara, M.
Powiązania:
https://bibliotekanauki.pl/articles/91771.pdf
Data publikacji:
2017
Wydawca:
Społeczna Akademia Nauk w Łodzi. Polskie Towarzystwo Sieci Neuronowych
Tematy:
natural language processing
neural network
question answering
natural language understanding
Opis:
In this paper, a novel neural network is proposed, which can automatically learn and recall contents from texts, and answer questions about the contents in either a large corpus or a short piece of text. The proposed neural network combines parse trees, semantic networks, and inference models. It contains layers corresponding to sentences, clauses, phrases, words and synonym sets. The neurons in the phrase-layer and the word-layer are labeled with their part-of-speeches and their semantic roles. The proposed neural network is automatically organized to represent the contents in a given text. Its carefully designed structure and algorithms make it able to take advantage of the labels and neurons of synonym sets to build the relationship between the sentences about similar things. The experiments show that the proposed neural network with the labels and the synonym sets has the better performance than the others that do not have the labels or the synonym sets while the other parts and the algorithms are the same. The proposed neural network also shows its ability to tolerate noise, to answer factoid questions, and to solve single-choice questions in an exercise book for non-native English learners in the experiments.
Źródło:
Journal of Artificial Intelligence and Soft Computing Research; 2017, 7, 4; 229-242
2083-2567
2449-6499
Pojawia się w:
Journal of Artificial Intelligence and Soft Computing Research
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
A blackboard system for generating poetry
Autorzy:
Misztal-Radecka, J.
Indurkhya, B.
Powiązania:
https://bibliotekanauki.pl/articles/305325.pdf
Data publikacji:
2016
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
poetry generation
computational creativity
natural language processing
multi-agent system
Opis:
We present a system to generate poems based on the information extracted from input text such as blog posts. Our design uses the blackboard architecture, in which independent specialized modules cooperate during the generation process by sharing a common workspace known as the blackboard. Each module is responsible for a particular task while generating poetry. Our implementation incorporates modules that retrieve information from the input text, generate new ideas, or select the best partial solutions. These distinct modules (experts) are implemented as diverse computational units that make use of lexical resources, grammar models, sentiment-analyzing tools, and languageprocessing algorithms. A control module is responsible for scheduling actions on the blackboard. We argue that the blackboard architecture is a promising way of simulating creative processes because of its flexibility and compliance with the Global Workspace Theory of mind. The main contribution of this work is the design and prototype implementation of an extensible platform for a poetry-generating system that may be further extended by incorporating new experts as well as some existing poetrygenerating systems as parts of the blackboard architecture. We claim that this design provides a powerful tool for combining many of the existing efforts in the domain of automatic poetry generation.
Źródło:
Computer Science; 2016, 17 (2); 265-294
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Text summarizing in Polish
Streszczanie tekstu w języku polskim
Autorzy:
Branny, E.
Gajęcki, M.
Powiązania:
https://bibliotekanauki.pl/articles/305824.pdf
Data publikacji:
2005
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
przetwarzanie języka naturalnego
streszczanie tekstu
natural language processing
text summarizing
Opis:
The aim of this article is to describe an existing implementation of a text summarizer for Polish, to analyze the results and propose the possibilities of further development. The problem of text summarizing has been already addressed by science but until now there has been no implementation designed for Polish. The implemented algorithm is based on existing developments in the field but it also includes some improvements. It has been optimized for newspaper texts ranging from approx. 10 to 50 sentences. Evaluation has shown that it works better than known generic summarization tools when applied to Polish.
Celem artykułu jest zaprezentowanie algorytmu streszczającego teksty w języku polskim. Mimo istnienia algorytmów streszczających teksty, brak jest algorytmów dedykowanych dla języka polskiego. Przedstawiony algorytm bazuje na istniejących algorytmach streszczania tekstu, ale zawiera kilka ulepszeń. Algorytm jest przeznaczony dla streszczania tekstów prasowych liczących od 10 do 50 zdań. Przeprowadzone testy pokazują, że algorytm działa lepiej od znanych algorytmów zastosowanych dla języka polskiego.
Źródło:
Computer Science; 2005, 7; 31-48
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Swarm algorithms for NLP : the case of limited training data
Autorzy:
Tambouratzis, George
Vassiliou, Marina
Powiązania:
https://bibliotekanauki.pl/articles/1396739.pdf
Data publikacji:
2019
Wydawca:
Społeczna Akademia Nauk w Łodzi. Polskie Towarzystwo Sieci Neuronowych
Tematy:
particle swarm optimisation
natural language processing
text phrasing
machine translation
Opis:
The present article describes a novel phrasing model which can be used for segmenting sentences of unconstrained text into syntactically-defined phrases. This model is based on the notion of attraction and repulsion forces between adjacent words. Each of these forces is weighed appropriately by system parameters, the values of which are optimised via particle swarm optimisation. This approach is designed to be language-independent and is tested here for different languages. The phrasing model’s performance is assessed per se, by calculating the segmentation accuracy against a golden segmentation. Operational testing also involves integrating the model to a phrase-based Machine Translation (MT) system and measuring the translation quality when the phrasing model is used to segment input text into phrases. Experiments show that the performance of this approach is comparable to other leading segmentation methods and that it exceeds that of baseline systems.
Źródło:
Journal of Artificial Intelligence and Soft Computing Research; 2019, 9, 3; 219-234
2083-2567
2449-6499
Pojawia się w:
Journal of Artificial Intelligence and Soft Computing Research
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Evaluating lexicographer controlled semi-automatic word sense disambiguation method in a large scale experiment
Autorzy:
Broda, B.
Piasecki, M.
Powiązania:
https://bibliotekanauki.pl/articles/206405.pdf
Data publikacji:
2011
Wydawca:
Polska Akademia Nauk. Instytut Badań Systemowych PAN
Tematy:
natural language processing
word sense disambiguation
semi-supervised machine learning
Opis:
Word Sense Disambiguation in text remains a difficult problem as the best supervised methods require laborious and costly manual preparation of training data. On the other hand, the unsupervised methods yield significantly lower precision and produce results that are not satisfying for many applications. Recently, an algorithm based on weakly-supervised learning for WSD called Lexicographer-Controlled Semi-automatic Sense Disambiguation (LexCSD) was proposed. The method is based on clustering of text snippets including words in focus. For each cluster we find a core, which is labelled with a word sense by a human, and is used to produce a classifier. Classifiers, constructed for each word separately, are applied to text. The goal of this work is to evaluate LexCSD trained on large volume of untagged text. A comparison showed that the approach is better than most frequent sense baseline in most cases.
Źródło:
Control and Cybernetics; 2011, 40, 2; 419-436
0324-8569
Pojawia się w:
Control and Cybernetics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Terminologiedatenbanken im mobilen Einsatz – eine Projektskizze
Autorzy:
Rösener, Christoph
Powiązania:
https://bibliotekanauki.pl/articles/700383.pdf
Data publikacji:
2013
Wydawca:
Stowarzyszenie Germanistów Polskich
Tematy:
terminology databases, research project, natural language processing, linguistic intelligence, special languages
Opis:
Initially this paper describes the newest trends and tendencies of mobile usage of terminology databases. Additionally it presents the latest technical developments in this area. This is then followed by an overview about a research project, which investigates the concept, implementation and usage of a central terminology database application for mobile usage within a public sector institution in special operational scenarios.
Źródło:
Zeitschrift des Verbandes Polnischer Germanisten; 2013, 2, 2
2353-656X
2353-4893
Pojawia się w:
Zeitschrift des Verbandes Polnischer Germanisten
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Building semantic user profile for polish web news portal
Autorzy:
Misztal-Radecka, J.
Powiązania:
https://bibliotekanauki.pl/articles/305619.pdf
Data publikacji:
2018
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
user profiling
word embeddings
topic modeling
natural language processing
gender prediction
Opis:
The aim of this research is to construct meaningful user profiles that are the most descriptive of user interests in the context of the media content that they browse. We use two distinct state-of-the-art numerical text-representation techniques: LDA topic modeling and Word2Vec word embeddings. We train our models on the collection of news articles in Polish and compare them with a model built on a general language corpus. We compare the performance of these algorithms on two practical tasks. First, we perform a qualitative analysis of the semantic relationships for similar article retrieval, and then we evaluate the predictive performance of distinct feature combinations for user gender classification. We apply the algorithms to the real-world dataset of Polish news service Onet. Our results show that the choice of text representation depends on the task –Word2Vec is more suitable for text comparison, especially for short texts such as titles. In the gender classification task, the best performance is obtained with a combination of features: topics from the article text and word embeddings from the title.
Źródło:
Computer Science; 2018, 19 (3); 307--332
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Domain specific key feature extraction using knowledge graph mining
Autorzy:
Barai, Mohit Kumar
Sanyal, Subhasis
Powiązania:
https://bibliotekanauki.pl/articles/2027771.pdf
Data publikacji:
2020
Wydawca:
Uniwersytet Ekonomiczny w Katowicach
Tematy:
Feature extraction
Knowledge graph
Natural language processing
Product review
Text processing
Opis:
In the field of text mining, many novel feature extraction approaches have been propounded. The following research paper is based on a novel feature extraction algorithm. In this paper, to formulate this approach, a weighted graph mining has been used to ensure the effectiveness of the feature extraction and computational efficiency; only the most effective graphs representing the maximum number of triangles based on a predefined relational criterion have been considered. The proposed novel technique is an amalgamation of the relation between words surrounding an aspect of the product and the lexicon-based connection among those words, which creates a relational triangle. A maximum number of a triangle covering an element has been accounted as a prime feature. The proposed algorithm performs more than three times better than TF-IDF within a limited set of data in analysis based on domain-specific data.
Źródło:
Multiple Criteria Decision Making; 2020, 15; 1-22
2084-1531
Pojawia się w:
Multiple Criteria Decision Making
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The Impact of Investor Sentiment on Direction of Stock Price Changes: Evidence from the Polish Stock Market
Autorzy:
Polak, Kamil
Powiązania:
https://bibliotekanauki.pl/articles/2053925.pdf
Data publikacji:
2021-12-20
Wydawca:
Uniwersytet Warszawski. Wydawnictwo Naukowe Wydziału Zarządzania
Tematy:
sentiment analysis
natural language processing
machine learning
financial forecasting
behavioral finance
Opis:
The purpose of this research is to examine the impact of sentiment derived from news headlines on the direction of stock price changes. The study examines stocks listed on the WIG-banking sub-sector index on the Warsaw Stock Exchange. Two types of data were used: textual and market data. The research period covers the years 2015–2018. Through the research, 7,074 observations were investigated, of which 3,390 with positive sentiment, 2,665 neutral, and 1,019 negative. In order to examine the predictive power of sentiment, six machine learning models were used: Decision Tree Classifier, Random Forest Classifier, XGBoost Classifier, KNN Classifier, SVC and Gaussian Naive Bayes Classifier. Empirical results show that the sentiment of news headlines has no significant explanatory power for the direction of stock price changes in one-day time frame.
Źródło:
Journal of Banking and Financial Economics; 2021, 2(16); 72-90
2353-6845
Pojawia się w:
Journal of Banking and Financial Economics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Towards textual data augmentation for neural networks: synonyms and maximum loss
Autorzy:
Jungiewicz, Michał
Smywiński-Pohl, Aleksander
Powiązania:
https://bibliotekanauki.pl/articles/305750.pdf
Data publikacji:
2019
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
deep learning
data augmentation
neural networks
natural language processing
sentence classification
Opis:
Data augmentation is one of the ways to deal with labeled data scarcity and overfitting. Both of these problems are crucial for modern deep-learning algorithms, which require massive amounts of data. The problem is better explored in the context of image analysis than for text; this work is a step forward to help close this gap. We propose a method for augmenting textual data when training convolutional neural networks for sentence classification. The augmentation is based on the substitution of words using a thesaurus as well as Princeton University's WordNet. Our method improves upon the baseline in most of the cases. In terms of accuracy, the best of the variants is 1.2% (pp.) better than the baseline.
Źródło:
Computer Science; 2019, 20 (1); 57-83
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Methodological and technical challenges of a corpus-based study of Naija
Autorzy:
Caron, Bernard
Linde-Usiekniewicz, Jadwiga
Storch, Anne
Powiązania:
https://bibliotekanauki.pl/chapters/1036950.pdf
Data publikacji:
2020
Wydawca:
Uniwersytet Warszawski. Wydawnictwa Uniwersytetu Warszawskiego
Tematy:
natural language processing
corpus studies
syntax
prosody
Atlantic pidgins and creoles
Opis:
This paper presents early reflections on the NaijaSynCor survey (NSC) financed by the French Agence Nationale de la Recherche. The nature of the language surveyed (Naija, a post-creole spoken in Nigeria as a second language by close to 100 million speakers) has induced a specific choice of theoretical framework (variationist sociolinguistics) and methodology (a corpus-based study using Natural Language Processing). Half-way through the 4 year-study, the initial methodological choices are assessed taking into account the nature of the data that has been collected, and the problems that occurred as early as the initial stages of their annotation.
Źródło:
West African languages. Linguistic theory and communication; 57-75
9788323546313
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Experimental Comparison of Pre-Trained Word Embedding Vectors of Word2Vec, Glove, FastText for Word Level Semantic Text Similarity Measurement in Turkish
Autorzy:
Tulu, Cagatay Neftali
Powiązania:
https://bibliotekanauki.pl/articles/2201815.pdf
Data publikacji:
2022
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
semantic word similarity
word embeddings
NLP
Turkish NLP
natural language processing
Opis:
This study aims to evaluate experimentally the word vectors produced by three widely used embedding methods for the word-level semantic text similarity in Turkish. Three benchmark datasets SimTurk, AnlamVer, and RG65_Turkce are used in this study to evaluate the word embedding vectors produced by three different methods namely Word2Vec, Glove, and FastText. As a result of the comparative analysis, Turkish word vectors produced with Glove and FastText gained better correlation in the word level semantic similarity. It is also found that The Turkish word coverage of FastText is ahead of the other two methods because the limited number of Out of Vocabulary (OOV) words have been observed in the experiments conducted for FastText. Another observation is that FastText and Glove vectors showed great success in terms of Spearman correlation value in the SimTurk and AnlamVer datasets both of which are purely prepared and evaluated by local Turkish individuals. This is another indicator showing that these aforementioned datasets are better representing the Turkish language in terms of morphology and inflections.
Źródło:
Advances in Science and Technology. Research Journal; 2022, 16, 4; 147--156
2299-8624
Pojawia się w:
Advances in Science and Technology. Research Journal
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Computational Analysis of Printed Arabic Text Database for Natural Language Processing
Analiza obliczeniowa bazy danych tekstów drukowanych w języku arabskim na potrzeby przetwarzania języka naturalnego
Autorzy:
Bouressace, Hassina
Powiązania:
https://bibliotekanauki.pl/articles/49331207.pdf
Data publikacji:
2023
Wydawca:
Polska Akademia Nauk. Instytut Slawistyki PAN
Tematy:
język arabski
słownictwo
dokumenty w języku arabskim
słownik frekwencyjny
baza danych tekstów drukowanych w języku arabskim
Arabic language
vocabulary
Arabic documents
frequency dictionary
Arabic printed text database
Opis:
A frequency dictionary of printed Arabic text is essential for natural language processing. It includes 1,251 XML files of Arabic documents collected from ten newspapers and magazines from different countries and created as the PATD database. A total of 2,344 articles were created with various structures: open vocabulary, multi-font, multi-size, and multi-style text. From these articles, 1,102,078 tokens, 19,926 sentences, and 1,000,000 words were extracted. This dictionary provides detailed information for each word, including English equivalents, usage statistics, usage distribution, and the most widely used terms. A thematic vocabulary list of the top words on various topics is also provided. This frequency dictionary is a useful resource of modern Arabic vocabulary for various specialists, students, and learners. The frequency dictionary is freely available to interested researchers on the webpage.
Słownik frekwencyjny bazy danych tekstów drukowanych w języku arabskim jest niezbędny do przetwarzania języka naturalnego. Baza danych tekstów drukowanych w języku arabskim (PATD) zawiera 1251 plików XML różnych dokumentów w języku arabskim pochodzących z dziesięciu gazet i czasopism z kilku krajów. Łącznie utworzono 2 344 artykuły o różnych strukturach: teksty z otwartym słownictwem, z wieloma czcionkami o różnej wielkości  i reprezentujące różne style. Z tych artykułów wyodrębniono 1 102 078 tokenów, 19 926 zdań i 1 000 000 leksemów. Słownik frekwencyjny jest przydatnym źródłem współczesnego słownictwa arabskiego dla różnych specjalistów, studentów oraz uczniów. Jest udostępniony bezpłatnie dla zainteresowanych badaczy na stronie internetowej.
Źródło:
Cognitive Studies | Études cognitives; 2023, 23
1641-9758
2392-2397
Pojawia się w:
Cognitive Studies | Études cognitives
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Dependability aspects of language technology infrastructure
Autorzy:
Walkowiak, T.
Pol, M.
Powiązania:
https://bibliotekanauki.pl/articles/2068758.pdf
Data publikacji:
2018
Wydawca:
Uniwersytet Morski w Gdyni. Polskie Towarzystwo Bezpieczeństwa i Niezawodności
Tematy:
dependability
language technology infrastructure
natural language processing
micro-service architecture
CLARIN-PL
Opis:
The paper presents dependability analysis of CLARIN-PL Centre of Language Technology (CLT). It describes infrastructure, high availability aspects and micro-service architecture used in CLARIN-PL applications. Microservices architecture improves dependability in respect to availability and reliability and to some extent safety. It is comprised of the mechanisms of reliable communication of applications, replication, recovery, and transaction processing. CLT has also a set of components for failure detection, monitoring and autonomic management, and distributed security policy enforcement.
Źródło:
Journal of Polish Safety and Reliability Association; 2018, 9, 3; 101--108
2084-5316
Pojawia się w:
Journal of Polish Safety and Reliability Association
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Temporal Expressions in Polish Corpus KPWr
Autorzy:
Kocoń, Jan
Marcińczuk, Michał
Oleksy, Marcin
Bernaś, Tomasz
Wolski, Michał
Powiązania:
https://bibliotekanauki.pl/articles/676998.pdf
Data publikacji:
2015
Wydawca:
Polska Akademia Nauk. Instytut Slawistyki PAN
Tematy:
PLIMEX
TIMEX
temporal expressions
TimeML
machine learning
natural language processing
information extraction
Opis:
Temporal Expressions in Polish Corpus KPWrThis article presents the result of the recent research in the interpretation of Polish expressions that refer to time. These expressions are the source of information when something happens, how often something occurs or how long something lasts. Temporal information, which can be extracted from text automatically, plays significant role in many information extraction systems, such as question answering, discourse analysis, event recognition and many more. We prepared PLIMEX - a broad description of Polish temporal expressions with annotation guidelines, based on the state-of-the-art solutions for English, mainly TimeML specification. We also adapted the solution to capture the local semantics of temporal expressions, called LTIMEX. Temporal description also supports further event identification and extends event description model, focusing at anchoring events in time, ordering events and reasoning about the persistence of events. We prepared the specification, which is designed to address these issues and we annotated all documents in Polish Corpus of Wroclaw University of Technology (KPWr) using our annotation guidelines.
Źródło:
Cognitive Studies; 2015, 15
2392-2397
Pojawia się w:
Cognitive Studies
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Goal - oriented conversational bot for employment domain
Autorzy:
Drozda, Paweł
Żmijewski, Tomasz
Osowski, Maciej
Krasnodębska, Aleksandra
Talun, Arkadiusz
Powiązania:
https://bibliotekanauki.pl/articles/22615524.pdf
Data publikacji:
2023
Wydawca:
Uniwersytet Warmińsko-Mazurski w Olsztynie
Tematy:
chatbot
Deep Q Network
DQN
goal
oriented bot
Natural Language Processing
NLP
Opis:
This paper focuses of the implementation of the goal – oriented chatbot in order to prepare virtual resumes of candidates for job position. In particular the study was devoted to testing the feasibility of using Deep Q Networks (DQN) to prepare an effective chatbot conversation flow with the final system user. The results of the research confirmed that the use of the DQN model in the training of the conversational system allowed to increase the level of success, measured as the acceptance of the resume by the recruiter and the finalization of the conversation with the bot. The success rate increased from 10% to 64% in experimental environment and from 15% to 45% in production environment. Moreover, DQN model allowed the conversation to be shortened by an average of 4 questions from 11 to 7.
Źródło:
Technical Sciences / University of Warmia and Mazury in Olsztyn; 2023, 26(1); 111--123
1505-4675
2083-4527
Pojawia się w:
Technical Sciences / University of Warmia and Mazury in Olsztyn
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Analiza fleksyjna tekstów historycznych i zmienność fleksji polskiej z perspektywy danych korpusowych
Autorzy:
Woliński, Marcin
Kieraś, Witold
Powiązania:
https://bibliotekanauki.pl/articles/1630443.pdf
Data publikacji:
2020-10-30
Wydawca:
Towarzystwo Kultury Języka
Tematy:
electronic text corpus
natural language processing
inflection of Polish
history of language
Opis:
The subject matter of this paper is Chronofleks, a computer system (http://chronofleks.nlp.ipipan.waw.pl/) modelling Polish inflection based on a corpus material. The system visualises changes of inflectional paradigms of individual lexemes over time and enables examination of the variability of the frequency of inflected form groups distinguished based on various criteria. Feeding Chronofleks with corpus data required development of IT tools to ensure an inflectional processing sequence of texts analogous to the ones used for modern language; they comprise a transcriber, a morphological analyser, and a tagger. The work was performed on data from three historical periods (1601–1772, 1830–1918, and modern ones) elaborated in independent projects. Therefore, finding a common manner of describing data from the individual periods was a significant element of the work.
Źródło:
Poradnik Językowy; 2020, 777, 8; 66-80
0551-5343
Pojawia się w:
Poradnik Językowy
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Automatically generated language learning exercises for Finno-Ugric languages
Autorzy:
Ferenczi, Zsanett
Powiązania:
https://bibliotekanauki.pl/articles/40221007.pdf
Data publikacji:
2023
Wydawca:
Katolicki Uniwersytet Lubelski Jana Pawła II
Tematy:
natural language processing
computer-assisted language learning
virtual flashcards
Finno-Ugric languages
Opis:
Morphologically rich languages always constitute a great challenge for language learners. The learner must be able to understand the information encoded in different word forms of the same root and to generate the correct word form to express certain syntactic functions and grammatical relations by conjugating a verb or declining a noun, an adjective or a pronoun. One way to improve one’s language skills is through exercises that focus on certain aspects of grammar. In this paper, a language learning application is presented that is intended to help learners of Finnish and Hungarian (with Hungarian and Finnish L1, respectively) acquire new vocabulary items, as well as practice some grammar aspects that according to surveys are considered difficult by learners of these languages with the other Finno-Ugric language being the learner’s native tongue, while alleviating the need to create these exercises manually. This application is a result of an on-going research project. In this research project, bilingual translation pairs and additional monolingual data were collected that can be utilized to build language learning exercises and an online bilingual dictionary with the help of automatic methods. Several linguistic patterns and rules were defined in order to automatically select example sentences that focus on a given part of the target language. These sentences were automatically annotated with the help of language processing tools. Due to the large size of the previously collected data sets, to date, only a subset of the analyzed sentences and the bilingual translation pairs has been manually evaluated. The results of this evaluation are discussed in this paper in order to estimate the precision of the methodology presented here. To ensure the precision of the information and the reliability of the application, only manually validated data sets are displayed. In this project, continuous data validation is planned, since it leads to more and more examples and vocabulary items that learners can benefit from.
Źródło:
Linguistics Beyond and Within; 2023, 9; 23-35
2450-5188
Pojawia się w:
Linguistics Beyond and Within
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Automatyczna budowa semantycznego modelu objawów chorobowych na bazie korpusu słownego
Automatic construction of a semantic model of disease symptoms based on text corpus
Autorzy:
Szostek, G.
Jaszuk, M.
Walczak, A.
Powiązania:
https://bibliotekanauki.pl/articles/305941.pdf
Data publikacji:
2012
Wydawca:
Wojskowa Akademia Techniczna im. Jarosława Dąbrowskiego
Tematy:
sieć semantyczna
ontologia
przetwarzanie języka naturalnego
semantic network
ontology
natural language processing
Opis:
Opisane w artykule badania dotyczą danych z dziedziny medycyny. Wyniki badań diagnostycznych rejestrowane są na różne sposoby. Mogą mieć postać tabel, wykresów, obrazów. Niezależnie od oryginalnego formatu danych możliwe jest sporządzenie ich opisu słownego, który koncentruje się na opisie zaobserwowanych objawów chorobowych. Opisy takie tworzą korpusy słowne dotyczące poszczególnych technologii diagnostycznych. W podobny sposób zapisywana jest wiedza dotycząca jednostek chorobowych. Ma ona postać korpusów tekstowych, w których zawarte są opisy objawów specyficznych dla poszczególnych schorzeń. Za pomocą narzędzi przetwarzania języka naturalnego możliwe jest automatyczne wydobycie z tekstów modeli semantycznych, opisujących poszczególne technologie diagnostyczne oraz choroby. Pewne utrudnienie stanowi fakt, że wiedza medyczna może zostać zapisana w języku naturalnym na wiele sposobów. Zastosowanie formatu semantycznego pozwala wyeliminować te niejednoznaczności zapisu. W konsekwencji dostajemy ujednolicony model wiedzy medycznej, zarówno od strony wyników technologii diagnostycznych opisujących stan pacjenta, jak i wiedzy dotyczącej jednostek chorobowych. Daje to możliwość dokonania fuzji danych pochodzących z różnych źródeł (danych heterogenicznych) do postaci homogenicznej. Artykuł przedstawia metodę generowania modelu semantycznego wiedzy medycznej, wykorzystującą analizy leksykalne korpusów słownych.
The research described in article refers the medical data. Descriptions of diagnostic technologies results and descriptions of diseases form the text corpus. The corpus is the basis for building a semantic model of symptoms. A specific symptom can be written in the natural language in many ways, which is a problem for further processing of such information. There is a need to record symptoms in a uniform format. Such format allows for application of the same methods and mathematical tools to support the process of diagnosis. The paper presents method of generating a semantic model based on text corpus. Construction of the model is a part of the research, which aims to make the fusion of data from different sources (heterogeneous data) into homogeneous form.
Źródło:
Biuletyn Instytutu Systemów Informatycznych; 2012, 9; 35-43
1508-4183
Pojawia się w:
Biuletyn Instytutu Systemów Informatycznych
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Automatic Building of a Semantic Model of Disease Symptoms Based on Text Corpus
Automatyczna budowa semantycznego modelu objawów chorobowych na bazie korpusu słownego
Autorzy:
Szostek, G.
Jaszuk, M.
Walczak, A.
Powiązania:
https://bibliotekanauki.pl/articles/305881.pdf
Data publikacji:
2014
Wydawca:
Wojskowa Akademia Techniczna im. Jarosława Dąbrowskiego
Tematy:
semantic network
ontology
natural language processing
sieć semantyczna
ontologia
przetwarzanie języka naturalnego
Opis:
The research described in the article refers to the study of data from the domain of medicine. The diagnostic test results are recorded in different ways. They may take the form of tables, graphs or images. Regardless of the original data format, it is possible to draw up their verbal description, which focuses on the description of the observed symptoms. Such descriptions make up the text corpora concerning individual diagnostic technologies. Knowledge on disease entities is stored in a similar manner. It has the form of text corpora, which contain descriptions of symptoms specific to individual diseases. By using natural language processing tools semantic models can be automatically extracted from the texts to describe particular diagnostic technologies and diseases. One of the obstacles is the fact that medical knowledge can be written in a natural language in many ways. The application of the semantic format allows the elimination of record ambiguities. Ultimately, we get a unified model of medical knowledge, both from the results of diagnostic technologies describing the state of the patient and knowledge of disease entities. This gives the possibility of merging data from different sources (heterogeneous data) to a homogeneous form. The article presents a method of generating a semantic model of medical knowledge, using lexical analysis of text corpora.
Opisane w artykule badania dotyczą danych z dziedziny medycyny. Wyniki badań diagnostycznych rejestrowane są na różne sposoby. Mogą mieć postać tabel, wykresów, obrazów. Niezależnie od oryginalnego formatu danych możliwe jest sporządzenie ich opisu słownego, który koncentruje się na opisie zaobserwowanych objawów chorobowych. Opisy takie tworzą korpusy słowne dotyczące poszczególnych technologii diagnostycznych. W podobny sposób zapisywana jest wiedza dotycząca jednostek chorobowych. Ma ona postać korpusów tekstowych, w których zawarte są opisy objawów specyficznych dla poszczególnych schorzeń. Posługując się narzędziami przetwarzania języka naturalnego, możliwe jest automatyczne wydobycie z tekstów modeli semantycznych opisujących poszczególne technologie diagnostyczne oraz choroby. Pewne utrudnienie stanowi fakt, że wiedza medyczna może zostać zapisana w języku naturalnym na wiele sposobów. Zastosowanie formatu semantycznego pozwala wyeliminować te niejednoznaczności zapisu. W konsekwencji dostajemy ujednolicony model wiedzy medycznej, zarówno od strony wyników technologii diagnostycznych opisujących stan pacjenta, jak i wiedzy dotyczącej jednostek chorobowych. Daje to możliwość dokonania fuzji danych pochodzących z różnych źródeł (danych heterogenicznych) do postaci homogenicznej. Artykuł przedstawia metodę generowania modelu semantycznego wiedzy medycznej wykorzystującą analizy leksykalne korpusów słownych.
Źródło:
Biuletyn Instytutu Systemów Informatycznych; 2014, 14; 25-34
1508-4183
Pojawia się w:
Biuletyn Instytutu Systemów Informatycznych
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The impact of administrator working hours on the reliability of the Centre of Language Technology
Autorzy:
Walkowiak, T.
Pol, M.
Powiązania:
https://bibliotekanauki.pl/articles/2068897.pdf
Data publikacji:
2017
Wydawca:
Uniwersytet Morski w Gdyni. Polskie Towarzystwo Bezpieczeństwa i Niezawodności
Tematy:
reliability
repair time
working hours
language technology infrastructure
natural language processing
CLARIN-PL
Opis:
The paper presents reliability analysis of CLARIN-PL Centre of Language Technology (CLT). The CLT is a Polish part of the language technology infrastructure developed by CLARIN project. The main goal of which is to support researchers in humanities and social sciences. The infrastructure is a complex computer system that enables combining language tools with language resources into processing chains. Authors present the system structure, analyse types of faults and define the CLT reliability model. The model takes into account the fact the time gap, between the failure and the repair of the system is not exponential since repair actions are taken only when administrators are at work (assuming that administrators are not working 24/7). The model is used to estimate reliability metrics (mean time and 90th percentile of relative down time and relative partial operational time) by a use of Monte-Carlo simulation. Moreover, analysis of possible improvement in the CLT organisation and its influence on the estimated metrics is given.
Źródło:
Journal of Polish Safety and Reliability Association; 2017, 8, 1; 167--174
2084-5316
Pojawia się w:
Journal of Polish Safety and Reliability Association
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Language resources for named entity annotation in the National Corpus of Polish
Autorzy:
Savary, A.
Piskorski, J.
Powiązania:
https://bibliotekanauki.pl/articles/206388.pdf
Data publikacji:
2011
Wydawca:
Polska Akademia Nauk. Instytut Badań Systemowych PAN
Tematy:
natural language processing
proper names
named entities
corpus annotation
Polish National Corpus
SProUT
Opis:
We present the named entity annotation subtask of a project aiming at creating the National Corpus of Polish. We summarize the annotation requirements defined for this corpus, and we discuss how existing lexical resources and grammars for named entity recognition for Polish have been adapted to meet those requirements. We show detailed results of the corpus annotation using the information extraction platform SProUT. We also analyze the errors committed by our knowledge-based method and suggest its further improvements.
Źródło:
Control and Cybernetics; 2011, 40, 2; 361-391
0324-8569
Pojawia się w:
Control and Cybernetics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Weighted accuracy algorithmic approach in counteracting fake news and disinformation
Algorytmiczne podejście do dokładności ważonej w przeciwdziałaniu fałszywym informacjom i dezinformacji
Autorzy:
Bonsu, K.O.
Powiązania:
https://bibliotekanauki.pl/articles/2048986.pdf
Data publikacji:
2021
Wydawca:
Akademia Bialska Nauk Stosowanych im. Jana Pawła II w Białej Podlaskiej
Tematy:
artificial intelligence
natural language processing
machine learning algorithm
disinformation
digital revolution
fake news
Opis:
Subject and purpose of work: Fake news and disinformation are polluting information environment. Hence, this paper proposes a methodology for fake news detection through the combined weighted accuracies of seven machine learning algorithms. Materials and methods: This paper uses natural language processing to analyze the text content of a list of news samples and then predicts whether they are FAKE or REAL. Results: Weighted accuracy algorithmic approach has been shown to reduce overfitting. It was revealed that the individual performance of the different algorithms improved after the data was extracted from the news outlet websites and 'quality' data was filtered by the constraint mechanism developed in the experiment. Conclusions: This model is different from the existing mechanisms in the sense that it automates the algorithm selection process and at the same time takes into account the performance of all the algorithms used, including the less performing ones, thereby increasing the mean accuracy of all the algorithm accuracies.
Źródło:
Economic and Regional Studies; 2021, 14, 1; 99-107
2083-3725
2451-182X
Pojawia się w:
Economic and Regional Studies
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Smart and valued? ICT urban (transport) solutions in the city official communication
Autorzy:
Kauf, Sabina
Pisz, Iwona
Powiązania:
https://bibliotekanauki.pl/articles/24202577.pdf
Data publikacji:
2022
Wydawca:
Akademia Morska w Szczecinie. Wydawnictwo AMSz
Tematy:
smart city
smart mobility
Natural Language Processing
ICT
official communication
ICT technology
transport
Opis:
To optimize the everyday functioning of a city, urban authorities can implement smart city tools and solutions. Mobility is a typical field associated with the concept of a smart city. It is interesting to take a closer look at the solutions applied through the information accessible on the official websites, while exploring, at the same time, the possibilities offered by new research tools. The main objective of this work is to establish the significance of the information and communication technologies (ICT) in the process of creating smart mobility in a smart city, based on the texts posted on official websites. Using the natural language processing (NLP) methods and tools offered by the CLARIN.EU infrastructure, we verified dominant connotations with the mobility in the cities recognized as smart. The cities sample is the extract from the existing smart city rankings. To fulfil our goal, we searched for an answer to the question: What information about ICT solutions is posted on the websites of the studied cities and in what thematic contexts are they used? We looked for the results of the smart city rankings, referring to the official websites of the selected cities (a random selection from a total of 174 cities). The results show that mobility forms a distinct topic in smart cities communication, covering various kinds of transport solutions and systems, with a strong focus on the project side of this activity. The results are the part of the research “The smart city 4.0 maturity model,” conducted at the Department of Marketing and Logistics UO.
Źródło:
Zeszyty Naukowe Akademii Morskiej w Szczecinie; 2022, 72 (144); 152--161
1733-8670
2392-0378
Pojawia się w:
Zeszyty Naukowe Akademii Morskiej w Szczecinie
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Traversing the Metaverse: the new frontiers for computer-mediated communication and natural language processing
Przemierzając metawersum: nowe granice w komunikacji zapośredniczonej przez komputer i w przetwarzaniu języka naturalnego
Autorzy:
Solska, Dagmara
Powiązania:
https://bibliotekanauki.pl/articles/2195900.pdf
Data publikacji:
2022-12-31
Wydawca:
Ateneum - Akademia Nauk Stosowanych w Gdańsku
Tematy:
metaverse
virtual reality
computer mediated communication
natural language processing
cyberspace
computational linguistics
metawersum
rzeczywistość wirtualna
przetwarzanie języka naturalnego
cyberprzestrzeń
lingwistyka komputerowa
komunikacja zapośredniczona przez komputer
Opis:
The primary objective of the following paper is to explore the concept of the Metaverse encompassing the Internet revolution, the information revolution, and the artificial intelligence technology revolution, which further incorporates virtual reality (VR), augmented reality (AR), and mixed reality (MR) technologies. Due to the fact that the current, fourth wave of computing innovation can be regarded as driven by immersive, spatial technologies, the Metaverse as the socalled post-reality universe and multi-user virtual environment has a considerable potential to become the future of the digital discourse. With Natural Language Processing (NLP) conceptualized as a subfield of artificial intelligence and linguistics, the following paper argues for the inclusion of NLP-based methods in the developing discourse revolving around the transformative idea of the Metaverse. At the same time, computer-mediated communication (CMC), can potentially be extended to the new context of the extensive online world of the Metaverse.
Głównym celem niniejszego artykułu jest przyjrzenie się koncepcji metawersum obejmującej rewolucję internetową, rewolucję informacyjną i rewolucję technologii sztucznej inteligencji, która obejmuje rzeczywistość wirtualną (VR), rzeczywistość rozszerzoną (AR) i rzeczywistość mieszaną (MR). W związku z tym, że obecną, czwartą falę innowacji komputerowych można uznać za napędzaną przez immersyjne, przestrzenne technologie, metawersum postrzegane jako uniwersum postrzeczywistości i wieloużytkownikowe środowisko wirtualne ma znaczący potencjał, by stać się przyszłością dyskursu cyfrowego. Poprzez umiejscowienie przetwarzania języka naturalnego (NLP) jako poddziedziny sztucznej inteligencji i językoznawstwa, niniejszy artykuł opowiada się za włączeniem metod NLP do rozwijającego się dyskursu dotyczącego transformacyjnej metawersum. Jednocześnie komunikacja zapośredniczona przez komputer (CMC), może potencjalnie zostać rozszerzona do nowego kontekstu rozbudowanego internetowego świata metawersum.
Źródło:
Forum Filologiczne Ateneum; 2022, 10, 1; 27-38
2353-2912
2719-8537
Pojawia się w:
Forum Filologiczne Ateneum
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
O wiele więcej niż Google Translate, czyli komputerowe przetwarzanie języka naturalnego (NLP) w translatoryce i translatologii
Far Beyond Google Translate: Natural Language Processing (NLP) in Translation and Translatology
Autorzy:
Okulska, Inez
Powiązania:
https://bibliotekanauki.pl/articles/912393.pdf
Data publikacji:
2020-06-15
Wydawca:
Uniwersytet im. Adama Mickiewicza w Poznaniu
Tematy:
literary translation
machine learning
big data
natural language processing
theory of translation
computational linguistics
machine translation
przekład literacki
teoria przekładu
przetwarzanie języka naturalnego
lingwistyka komputerowa
przekład maszynowy
uczenie maszynowe
Opis:
Przewrotna jest rola postępu – im więcej technologicznego rozwoju, tym większy udział człowieka – w koncepcji, formułowaniu zadań, interpretacji wyników, nadzorze i korekcie. Hierarchia jest zachowana, człowiek wciąż nieodzowny, ale to nie znaczy, że w pewnych obszarach maszynowy potencjał rzeczywiście nie przewyższa ludzkiego i że nie warto z tej przewagi skorzystać. Przetwarzanie języka naturalnego (NLP) to dziedzina niemłoda, ale w ostatnich latach dzięki rozkwitowi metod uczenia głębokiego (deep learning), mody na maszynowe wnioskowanie (data/knowledge mining) czy nowym sprzętowym interfejsom (m.in. zaawansowane rozpoznawanie obrazu) komputerowa analiza tekstu przeżywa istny renesans. W odniesieniu do translacji przyjęło się mówić i pisać głównie o coraz doskonalszych lub właśnie zupełnie niemożliwych algorytmach dla kolejnych par języków czy coraz większej precyzji samego tłumaczenia. Niniejszy artykuł przedstawia natomiast nieco szersze spektrum procesu tłumaczenia i przygląda się elementom przekładowi towarzyszącym (jak choćby krytyka), w których wykorzystanie metod NLP możeprzynieść nowe, ciekawe wyniki. Wyniki, których ze względu na ograniczoną moc obliczeniową człowiek nie jest w stanie osiągnąć. Omówione zostały takie aspekty jak wektorowa reprezentacja języka, stylometria i jej zastosowania czy analiza wielkich zbiorów danych – wszystko to na potrzeby szeroko rozumianychtranslacji i translatologii.
The more technological development, the greater the participation of the human – in formulating tasks and problems, supervising and improving automated processes and interpreting their outcomes. The hierarchy is preserved, humans are still indispensable, but it does not mean that in certain areas of machinery the potential does not really exceed that of the human and that this advantage is not worth exploiting. Natural language processing (NLP) is not a young field, but in recent years, thanks to the thrive of deep learning methods, data and knowledge mining or new human-machine interfaces, computer text analysis is experiencing a real renaissance. As far as translation is concerned, it is mostly algorithms for machine translation that are being discussed. This article, on the other hand, presents a slightly broader spectrum of the translation process and looks at the accompanying elements (such as criticism) in which the use of NLP methods may bring new and interesting results. Results which, due to limited computing power, humans are unable to achieve. The discussion in the paper covers such aspects as the vector representation of language,stylometry and its application, or the analysis of large data sets – all for the purposes of translation and translatology.
Źródło:
Porównania; 2020, 26, 1; 283-297
1733-165X
Pojawia się w:
Porównania
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The implementation of the example-based machine translation technique for Norwegian-to-Polish automatic translation system
Autorzy:
Gajer, M.
Powiązania:
https://bibliotekanauki.pl/articles/970363.pdf
Data publikacji:
2004
Wydawca:
Polska Akademia Nauk. Instytut Badań Systemowych PAN
Tematy:
przetwarzanie języka naturalnego
lingwistyka komputerowa
tłumaczenie komputerowe
natural language processing
computational linguistics
machine translation
Opis:
High-quality machine translation between human languages has for a long time been an unattainable dream for many computer scientists involved in this fascinating and interdisciplinary field of application of computers. The quite recently developed example-based machine translation technique seems to be a serious alternative to the existing automatic translation techniques. In the paper the usage of the example based machine translation technique for the development, of a system, which would be able to translate an unrestricted Norwegian text into Polish is proposed. The new approach to the example-based machine translation technique that takes into account the peculiarity of the Polish grammar is developed. The obtained primary results of development of the proposed system seem to be very promising and appear to be a step made in the right direction towards a fully-automatic high quality Norwegian-into-Polish machine translation system aimed for an unrestricted text.
Źródło:
Control and Cybernetics; 2004, 33, 2; 357-386
0324-8569
Pojawia się w:
Control and Cybernetics
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
W kierunku automatycznej klasyfikacji języków naturalnych
Autorzy:
Handzel, Zbigniew
Gajer, Mirosław
Grabiński, Tadeusz
Luty, Zbigniew
Surowiec, Anna
Powiązania:
https://bibliotekanauki.pl/articles/2147414.pdf
Data publikacji:
2021-12-06
Wydawca:
Wyższa Szkoła Ekonomii i Informatyki w Krakowie
Tematy:
przetwarzanie języka naturalnego
lingwistyka komputerowa
klasyfikacja języków
computational linguistics
natural language processing
language classification
Opis:
Streszczenie: Klasyfikacja języków naturalnych jest jednym z głównych zadań językoznawstwa. Spośród różnych typów klasyfikacji języków najbardziej wiarygodną i miarodajną wydaje się być klasyfikacja typologiczna, która łączy języki w jednostki większego rzędu na podstawie podobieństwa ich cech strukturalnych. Podobieństwo typologiczne języków może być wynikiem zarówno ich pochodzenia od wspólnego przodka, czyli prajęzyka, jak i występujących zapożyczeń międzyjęzykowych dotyczących zarówno leksyki, jak i struktur składniowych. W artykule zamieszczono propozycję budowy systemu przeznaczonego do realizacji automatycznej klasyfikacji języków naturalnych ze względu na ich stopień podobieństwa typologicznego. Opracowany przez autorów system uwzględnia obecnie 72 języki należące głównie do indoeuropejskiej rodziny językowej. W systemie uwzględniono ponadto kilka języków należących do innych rodzin językowych oraz wybrane języki sztuczne typu naturalistycznego. Autorzy zaprezentowali program komputerowy służący do wyznaczania liczbowej miary stopnia wzajemnego podobieństwa systemów zaimków osobowych występujących w różnych językach świata. W przyszłości planowana jest budowa analogicznych systemów przeznaczonych do wyznaczania miary podobieństwa języków na podstawie automatycznej analizy wzorców koniugacyjnych czasowników oraz wzorców deklinacyjnych rzeczowników i przymiotników wybranych języków
Classification of natural languages is one of the main tasks of linguistics. Of the various types of language classification, the most reliable and authoritative seems to be the typological classification, which combines languages into units of a higher order on the basis of similarity of their structural features. The typological similarity of languages may be a result of both their origin from a common ancestor, i.e. a proto-language, and interlingual borrowings concerning both lexis and syntactic structures. The paper presents a proposal for the construction of a system intended for the automatic classification of natural languages according to their degree of typological similarity. The system developed by the authors currently includes 72 languages belonging mainly to the Indo-European language family. The system also includes several languages belonging to other language families and selected artificial languages of a naturalistic type. The authors have presented a computer programme for determining a numerical measure of the degree of mutual similarity between the systems of personal pronouns occurring in different languages of the world. In the future it is planned to build analogous systems to determine the measure of similarity between languages on the basis of automatic analysis of verb conjugation patterns and declension patterns of nouns and adjectives of selected languages.
Źródło:
Zeszyty Naukowe Wyższej Szkoły Ekonomii i Informatyki w Krakowie; 2021, 17; 53-70
1734-5391
Pojawia się w:
Zeszyty Naukowe Wyższej Szkoły Ekonomii i Informatyki w Krakowie
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The image of a vocational school teacher in the eyes of students and its relationship with the effectiveness of education
Autorzy:
Pardej, Katarzyna
Waszkowski, Robert
Powiązania:
https://bibliotekanauki.pl/articles/36786100.pdf
Data publikacji:
2022-05-09
Wydawca:
Wydawnictwo Naukowe Chrześcijańskiej Akademii Teologicznej w Warszawie
Tematy:
vocational education
vocational teacher
effective teaching
Natural Language Processing
sentiment analysis
machine learning
Opis:
The article discusses the competencies of vocational education teachers, as well as discusses the results of own research, which aimed to determine three types of teachers conceptualized by students - the most liked, the least liked, and the dream one. The research used the interview method, where the research technique was an interview, and the research tool was an interview questionnaire. The students' statements were analyzed using the Python Natural Language Toolkit used for natural language processing. In this way, the most common words used by students in describing teachers were selected. As a result, the personal qualities and pedagogical competencies of mechatronic teachers that students approve and disapprove of, as well as those that they lack and which would make a difference to the effectiveness of education, were identified.
Źródło:
Studia z Teorii Wychowania; 2022, XIII(1(38)); 121-140
2083-0998
2719-4078
Pojawia się w:
Studia z Teorii Wychowania
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Elektroniczny Korpus Tekstów Polskich z XVII i XVIII w. – problemy teoretyczne i warsztatowe
Autorzy:
Gruszczyński, Włodzimierz
Adamiec, Dorota
Bronikowska, Renata
Wieczorek, Aleksandra
Powiązania:
https://bibliotekanauki.pl/articles/1630441.pdf
Data publikacji:
2020
Wydawca:
Towarzystwo Kultury Języka
Tematy:
electronic text corpus
historical corpus
17th-18th-century Polish
natural language processing
Opis:
This paper presents the Electronic Corpus of 17th- and 18th-century Polish Texts (KorBa) – a large (13.5-million), annotated historical corpus available online. Its creation was modelled on the assumptions of the National Corpus of Polish (NKJP), yet the specifi c nature of the historical material enforced certain modifi cations of the solutions applied in NKJP, e.g. two forms of text representation (transliteration and transcription) were introduced, the principle of designating foreign-language fragments was adopted, and the tagset was adapted to the description of the grammatical structure of the Middle Polish language. The texts collected in KorBa are diversified in chronological, geographical, stylistic, and thematic terms although, due to e.g. limited access to the material, the postulate of representativeness and sustainability of the corpus was not fully implemented. The work on the corpus was to a large extent automated as a result of using natural language processing tools.
Źródło:
Poradnik Językowy; 2020, 777, 8; 32-51
0551-5343
Pojawia się w:
Poradnik Językowy
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Ontology Extraction from Software Requirements Using Named-Entity Recognition
Autorzy:
Kocerka, Jerzy
Krześlak, Michał
Gałuszka, Adam
Powiązania:
https://bibliotekanauki.pl/articles/2201736.pdf
Data publikacji:
2022
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
engineering requirements
ontology extraction
named-entity recognition
classification and terminology
terminology
natural language processing
NLP
Opis:
With the software playing a key role in most of the modern, complex systems it is extremely important to create and keep the software requirements precise and non-ambiguous. One of the key elements to achieve such a goal is to define the terms used in a requirement in a precise way. The aim of this study is to verify if the commercially available tools for natural language processing (NLP) can be used to create an automated process to identify whether the term used in a requirement is linked with a proper definition. We found out, that with a relatively small effort it is possible to create a model that detects the domain specific terms in the software requirements with a precision of 87 %. Using such model it is possible to determine if the term is followed by a link to a definition.
Źródło:
Advances in Science and Technology. Research Journal; 2022, 16, 3; 207--212
2299-8624
Pojawia się w:
Advances in Science and Technology. Research Journal
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Analiza możliwości i ograniczeń systemów translacji automatycznej wspomaganej przez człowieka na przykładzie systemu tłumaczącego z języka włoskiego na polski
The analysis of possibilities and frontiers of the human-aided machine translation system on the example of Italian-to-Polish translations system
Autorzy:
Gajer, M.
Powiązania:
https://bibliotekanauki.pl/articles/320407.pdf
Data publikacji:
2006
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
translacja automatyczna
przetwarzanie języka naturalnego
sztuczna inteligencja
machine translation
computational linguistics
natural language processing
Opis:
Translacja automatyczna jest dyscypliną nauki dostarczającą wiedzy o tym, jak programować komputery, aby były one w stanie dokonywać automatycznych przekładów pomiędzy wybranymi językami naturalnymi. Translacja automatyczna była również jedną z pierwszych aplikacji, jakie zostały zaproponowane dla komputerów. Niestety szybko okazało się, że zadanie translacji automatycznej jest znacznie trudniejsze, ale zarazem o wiele ciekawsze z naukowego punktu widzenia, niż pierwotnie sądzono. W artykule omówiono podstawowe przyczyny powodujące, że translacja automatyczna jest zadaniem tak niezwykle trudnym. Omówiono również najbardziej obiecujące kierunki rozwoju systemów translacji automatycznej. W dalszej części artykułu przedstawiono podstawowe koncepcje związane z nowym, zaproponowanym przez autora podejściem do zagadnień translacji automatycznej. Zamieszczone w artykule rozważania zilustrowano na przykładzie eksperymentalnego systemu translacji automatycznej, dokonującego przekładu zdań zapisanych w języku włoskim na polski.
Machine translation is a branch of science that teaches us how to program the computers, so as they were able to translate between different human languages. Machine translation was also one of the first application that was proposed for computers. Nonetheless, it soon appeared that the task of machine translation is much more difficult, but also much more interesting from the scientific point of view, than one had ever thought before. In the paper it is thoroughly explained why machine translation is so extremely hard. The most promising directions of development of machine translation systems are also briefly described. The special attention is paid to machine translation systems that are developed for Polish language. The other part of the paper is devoted to some practical experiments of implementation of human-aided machine translation technique for the system that translates from Italian into Polish. The way in which the system operates is illustrated on numerous examples. Italian language belongs to the group of Romance languages at its main feature is a variety of flexion forms of verbs. In the paper the algorithm for Italian flexion is described and it is illustrated on some examples.
Źródło:
Elektrotechnika i Elektronika; 2006, 25, 1; 10-37
1640-7202
Pojawia się w:
Elektrotechnika i Elektronika
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Computer system architecture for Polish-language documents search with the use of queries in a natural language
Koncepcja architektury systemu komputerowego wyszukiwania dokumentów w języku polskim przy pomocy zapytań w języku naturalnym
Autorzy:
Kwiatkowski, G.
Michalak, M.
Powiązania:
https://bibliotekanauki.pl/articles/1361028.pdf
Data publikacji:
2016
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
diagnostyka maszyn
przetwarzanie języka naturalnego
wyszukiwanie informacji
machine diagnostics
natural language processing
searching for information
Opis:
The article features an architecture concept of a system to search for information in text documents with the use of natural-language queries. The basic element of the proposed solution is the application of query expansion as a method to improve the quality of achieved results. As there are no such tools for the Polish language, the authors proposed how to prepare suitable assets from input data for this purpose. The prepared system will be applied for information search in specialized documents, such as technical and diagnostic documentation of mining machines.
Artykuł przestawia koncepcję architektury systemu wyszukiwania informacji w dokumentach tekstowych, z wykorzystaniem zapytań w języku naturalnym. Zasadniczym elementem proponowanego rozwiązania jest wykorzystanie metody ekspansji zapytań, jako sposobu na poprawę jakości uzyskiwanych wyników. Ponieważ brak jest tego typu narzędzi dedykowanych dla języka polskiego, zaproponowano także sposób przygotowania odpowiednich do tego celu zasobów z danych wejściowych. Przygotowywany system znajdzie zastosowanie w wyszukiwaniu informacji w dokumentach specjalistycznych, jakimi są dokumentacje techniczne i diagnostyczne maszyn górniczych.
Źródło:
Mining – Informatics, Automation and Electrical Engineering; 2016, 54, 3; 16-23 [tekst ang.], 67-75 [tekst pol.]
2450-7326
2449-6421
Pojawia się w:
Mining – Informatics, Automation and Electrical Engineering
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Adaptive information extraction from structured text documents
Autorzy:
Ożdżyński, P.
Zakrzewska, D.
Powiązania:
https://bibliotekanauki.pl/articles/95029.pdf
Data publikacji:
2014
Wydawca:
Szkoła Główna Gospodarstwa Wiejskiego w Warszawie. Wydawnictwo Szkoły Głównej Gospodarstwa Wiejskiego w Warszawie
Tematy:
natural language processing
information extraction
tagging
named entity recognition
przetwarzanie języka naturalnego
zdobywanie informacji
tagowanie
Opis:
Effective analysis of structured documents may decide on management information systems performance. In the paper, an adaptive method of information extraction from structured text documents is considered. We assume that documents belong to thematic groups and that required set of information may be determined ”apriori”. The knowledge of document structure allows to indicate blocks, where certain information is more probable to appear. As the result structured data, which can be further analysed are obtained. The proposed solution uses dictionaries and flexion analysis, and may be applied to Polish texts. The presented approach can be used for information extraction from official letters, information sheets and product specifications.
Źródło:
Information Systems in Management; 2014, 3, 4; 261-272
2084-5537
2544-1728
Pojawia się w:
Information Systems in Management
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Rola analizy sieci społecznych w odkrywaniu narracyjnej struktury fikcji leterackiej
Social networks analysis in discovering the narrative structure of literary fiction
Autorzy:
Jarynowski, A.
Boland, S.
Powiązania:
https://bibliotekanauki.pl/articles/305879.pdf
Data publikacji:
2013
Wydawca:
Wojskowa Akademia Techniczna im. Jarosława Dąbrowskiego
Tematy:
analiza sieci społecznych
przetwarzanie języka naturalnego
percepcja narracji
social network analysis
natural language processing
narration
Opis:
Narzędzia matematyczne rozwinięte w celu opisu układów z łożonych z powodzeniem są używane w naukach społecznych oraz coraz częściej znajdują zastosowanie w humanistyce. W prezentowanym interdyscyplinarnym projekcie pragniemy wykorzystać metody analizy sieciowej, aby lepiej zrozumieć sposób kreacji oraz przedstawienia świata przez autorów utworów literackich. Jednakże percepcja takiego świata zależy od subiektywnej wizji czytelnika, więc zwróciliśmy szczególną uwagę na różne sposoby ekstrakcji sieci powiązań społecznych z fikcyjnej rzeczywistości. Celem badań było odczytywanie różnych interakcji społecznych w tekście przez porównanie sieci otrzymanych przez algorytmy przetwarzania języka naturalnego (ang.natural language processing NLP) z tymi odtworzonymi na podstawie kwestionariuszy wypełnionych przez czytelników. Sieci dialogów, czy uczestnictwa w tej samej scenie zostały już opisane przez naukowców z amerykańskich uniwersytetów Stanford i Columbia, ale wciąż brakowało analizy relacji na ogólniejszym poziomie (interakcje międzyludzkie nie ograniczają się jedynie do dialogów bądź przebywania w tym samym miejscu). Zaproponowaliśmy kilka metod NLP w celu detekcji tych interakcji i skonfrontowaliśmy je z ludzkim postrzeganiem. Przy okazji odkryliśmy obszary teorii literatury, w których nie da się wykorzystać analizy sieciowej (np. interakcje nawiązujące do fabuły nie tworzą klasycznego trójkąta z punktem kulminacyjnym znanym z teorii literatury).
In our paper we would like to make a cross-disciplinary leap and use the tools of network theory to understand and explore narrative structure in literary fiction, an approach that is still underestimated. However, the systems in fiction are sensitive to reader’s subjectivity and attention must to be paid to different methods of extracting networks. The project aims at investigating into different ways social interactions are, read in texts by comparing networks produced by automated algorithms-natural language processing (NLP) with those created by surveying more subjective human responses. Conversation networks from fiction have been already extracted by scientists, but the more general framework surrounding these interactions was missing. We propose several NLP methods for detecting interactions and test them against a range of human perceptions. In doing so, we have pointed to some limitations of using network analysis to test literary theory (e.g. interaction, which corresponds to the plot, does not form climax).
Źródło:
Biuletyn Instytutu Systemów Informatycznych; 2013, 12; 35-42
1508-4183
Pojawia się w:
Biuletyn Instytutu Systemów Informatycznych
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Geolocalization of 19th-century villages and cities mentioned in geographical dictionary of the kingdom of Poland
Autorzy:
Jaśkiewicz, G.
Powiązania:
https://bibliotekanauki.pl/articles/305699.pdf
Data publikacji:
2013
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
natural language processing
geolocalization
statistics
information extraction
Geographical Dictionary of Polish Kingdom and Other Slavic Countries
Opis:
This article presents a method of the rough estimation of geographical coordinates of villages and cities, which is described in the 19th-Century geographical encyclopedia entitled: “The Geographical Dictionary of the Polish Kingdom and Other Slavic Countries”[18]. Described are the algorithm function for estimating location, the tools used to acquire and process necessary information, and the context of this research.
Źródło:
Computer Science; 2013, 14 (3); 423-442
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Adaptive Rider Feedback Artificial Tree Optimization-Based Deep Neuro-Fuzzy Network for Classification of Sentiment Grade
Autorzy:
Jasti, Sireesha
Kumar, G.V.S. Raj
Powiązania:
https://bibliotekanauki.pl/articles/2200961.pdf
Data publikacji:
2023
Wydawca:
Instytut Łączności - Państwowy Instytut Badawczy
Tematy:
deep learning network
feedback artificial tree
natural language processing (NLP)
rider optimization algorithm
sentiment grade classification
Opis:
Sentiment analysis is an efficient technique for expressing users’ opinions (neutral, negative or positive) regarding specific services or products. One of the important benefits of analyzing sentiment is in appraising the comments that users provide or service providers or services. In this work, a solution known as adaptive rider feedback artificial tree optimization-based deep neuro-fuzzy network (RFATO-based DNFN) is implemented for efficient sentiment grade classification. Here, the input is pre-processed by employing the process of stemming and stop word removal. Then, important factors, e.g. SentiWordNet-based features, such as the mean value, variance, as well as kurtosis, spam word-based features, term frequency-inverse document frequency (TF-IDF) features and emoticon-based features, are extracted. In addition, angular similarity and the decision tree model are employed for grouping the reviewed data into specific sets. Next, the deep neuro-fuzzy network (DNFN) classifier is used to classify the sentiment grade. The proposed adaptive rider feedback artificial tree optimization (A-RFATO) approach is utilized for the training of DNFN. The A-RFATO technique is a combination of the feedback artificial tree (FAT) approach and the rider optimization algorithm (ROA) with an adaptive concept. The effectiveness of the proposed A-RFATO-based DNFN model is evaluated based on such metrics as sensitivity, accuracy, specificity, and precision. The sentiment grade classification method developed achieves better sensitivity, accuracy, specificity, and precision rates when compared with existing approaches based on Large Movie Review Dataset, Datafiniti Product Database, and Amazon reviews.
Źródło:
Journal of Telecommunications and Information Technology; 2023, 1; 37--50
1509-4553
1899-8852
Pojawia się w:
Journal of Telecommunications and Information Technology
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Dynamic verbs in the Wordnet of Polish
Autorzy:
Dziob, Agnieszka
Piasecki, Maciej
Powiązania:
https://bibliotekanauki.pl/articles/677246.pdf
Data publikacji:
2018
Wydawca:
Polska Akademia Nauk. Instytut Slawistyki PAN
Tematy:
plWordNet
Wordnet of Polish
lexico-semantic relations
Polish language
dynamic verbs
verbs in wordnet
natural language processing
Opis:
Dynamic verbs in the Wordnet of PolishThe paper presents patterns of co-occurrences of wordnet relations involving verb lexical units in plWordNet - a large wordnet of Polish. The discovered patterns reveal tendencies of selected synset and lexical relations to form regular circular structures of clear semantic meanings. They involve several types of relations, e.g., presupposition, cause, processuality and antonymy, do not have a necessary character (there are exceptions), but can be used in wordnet diagnostics and guidelines for wordnet editors. The analysis is illustrated with numerous positive and negative examples, as well as statistics for verb relations in plWordNet 4.0 emo. Some attempts to a more general, linguistic explanation of the observed phenomena are also made. As a background, plWordNet model of linguistic character is briefly recollected. A special attention is given to the verb part. In addition the description of dynamic verbs by relations and features is discussed in details including relation definitions and substitution tests. Czasowniki dynamiczne w Słowosieci - wordnecie języka polskiego W artykule zostały przedstawione wzorce współwystępowania relacji leksykalno-semantycznych obejmujących czasownikowe jednostki leksykalne w ramach Słowosieci - wielkiego relacyjnego słownika języka polskiego, wordnetu języka polskiego. Tłem obserwacji jest Słowosieć 4.0 emo, dla której omówiono skrótowo system relacji czasownikowych wraz ze statystykami. Szczególną uwagę autorzy poświęcili czasownikom dynamicznym i ich typowym relacjom, dla których przedstawiono testy substytucji z wytycznych do relacyjnego opisu czasownika, zdefiniowanych na potrzeby edycji Słowosieci przez lingwistów. Opisane w artykule wzorce współwystępowania ukazują tendencje niektórych relacji synsetów (tj. zbiorów synonimów) i jednostek leksykalnych (m.in. presupozycji, kauzacji, procesywności i antonimii) do tworzenia regularnych struktur, specyfikujących znaczenie wszystkich jednostek/synsetów, połączonych za pomocą danych relacji. Współwystępowania relacji wg wzorców nie mają charakteru obligatoryjnego, dlatego też w artykule przedstawiono zarówno pozytywne, jak i negatywne przykłady jednostek i synsetów, połączonych ze sobą za pomocą relacji współwystępujących, jak i pewne uwagi natury ogólnej, wskazujące na językowy charakter obserwowanego zjawiska. Oprócz znaczenia poznawczego, związanego ze współzależnościami, jakie zachodzą w obrębie systemu językowego, opis tych regularności ma również znaczenie praktyczne - może być wykorzystany przy diagnostyce wordnetu oraz w wytycznych dla lingwistów.
Źródło:
Cognitive Studies; 2018, 18
2392-2397
Pojawia się w:
Cognitive Studies
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Najlepsze narzędzie do zwalczania fejków (i dlaczego nie działa)
Best tools for detecting fake news (and why they do not work)
Autorzy:
Balcerzak, Bartłomiej
Powiązania:
https://bibliotekanauki.pl/articles/1849514.pdf
Data publikacji:
2020-09-30
Wydawca:
Instytut Dyskursu i Dialogu
Tematy:
fake news
informatyka społeczna
uczenie maszynowe
przetwarzanie języka naturalnego
computational social science
natural language processing
machine learning
Opis:
Artykuł stanowi przybliżenie technik informatycznych wykorzystywanych w procesie rozpoznawania fałszywych wiadomości. Równocześnie wskazuje na społeczne i psychologiczne czynniki wpływające na popularność fake news, oraz wskazuje na społeczne konsekwencje stosowania różnych metod wykrywania Fake News.
The article provides a review of various technologies used in detecting fake news online. It also provides discussion of sociological and psychological factors which influence the popularity of fake news. Finally a discussion of political consequences of the use of said technologies is provided.
Źródło:
Dyskurs & Dialog; 2020, II, 3 (5); 9-21
2658-2368
2658-2406
Pojawia się w:
Dyskurs & Dialog
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Examination of texts lexis using a Polish dictionary
Badanie leksyki tekstu na podstawie słownika języka polskiego
Autorzy:
Voitovych, Roman
Łukasik, Edyta
Powiązania:
https://bibliotekanauki.pl/articles/2055125.pdf
Data publikacji:
2021
Wydawca:
Politechnika Lubelska. Instytut Informatyki
Tematy:
natural language processing
lexis analysis
Jaccard similarity coefficient
Partitioning Around Medoids
przetwarzanie języka naturalnego
analiza leksyczna
indeks Jaccarda
Opis:
This paper presents an approach to compare and classify books written in the Polish language by comparing their lexis fields. Books can be classified by their features, such as literature type, literary genre, style, author, etc. Using a preas-sembled dictionary and Jaccard index, the authors managed to prove a lexical likeness for books. Further analysis with the PAM clustering algorithm presented a lexical connection between books of the same type or author. Analysis of values of similarities of any particular field on one side and some anomalous tendencies in other cases suggest that recognition of other features is possible. The method presented in this article allows to draw conclusions about the con-nection between any arbitrary books based solely on their vocabulary.
Artykuł prezentuje metodę porównania i klasyfikacji książek napisanych w języku polskim na podstawie ich leksyki. Książki można dzielić, korzystając z ich cech, np. rodzaju literatury, gatunku literackiego, stylu, autora itp. Korzystając ze skompilowanego słownika i indeksu Jaccarda, udowodniona została hipoteza dotycząca podobieństwa książek rozpatrywanego pod kątem ich leksyki. Kolejna analiza za pomocą algorytmu klastrowego PAM wskazuje na związek leksykalny pomiędzy książkami jednego rodzaju literatury lub autora. Analiza wartości współczynników poszczególnych obszarów z jednej strony i anomalia w zachowaniu w niektórych przypadkach sugeruje, że wyodrębnienie kolejnych cech jest możliwe. Metoda przedstawiona w tym artykule pozwala wyciągać wnioski o relacjach między książkami, korzystając wyłącznie z ich słownictwa.
Źródło:
Journal of Computer Sciences Institute; 2021, 21; 316--323
2544-0764
Pojawia się w:
Journal of Computer Sciences Institute
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Rozpoznawanie emocji w tekstach polskojęzycznych z wykorzystaniem metody słów kluczowych
Emotion recognition in polish texts based on keywords detection method
Autorzy:
Nowaczyk, A.
Jackowska-Strumiłło, L.
Powiązania:
https://bibliotekanauki.pl/articles/408760.pdf
Data publikacji:
2017
Wydawca:
Politechnika Lubelska. Wydawnictwo Politechniki Lubelskiej
Tematy:
rozpoznawanie emocji
interakcja człowiek-komputer
przetwarzanie języka naturalnego
przetwarzanie tekstów
emotion recognition
human-computer interaction
natural language processing
text processing
Opis:
Dynamiczny rozwój sieci społecznościowych sprawił, że Internet stał się najpopularniejszym medium komunikacyjnym. Zdecydowana większość komunikatów wymieniana jest w postaci widomości tekstowych, które niejednokrotnie odzwierciedlają stan emocjonalny autora. Identyfikacja emocji w tekstach znajduje szerokie zastosowanie w handlu elektronicznym, czy telemedycynie, stając się jednocześnie ważnym elementem w komunikacji. człowiek-komputer. W niniejszym artykule zaprezentowano metodę rozpoznawania emocji w tekstach polskojęzycznych opartą o algorytm detekcji słów kluczowych i lematyzację. Uzyskano dokładność rzędu 60%. Opracowano również pierwszą polskojęzyczną bazę słów kluczowych wyrażających emocje.
Dynamic development of social networks caused that the Internet has become the most popular communication medium. A vast majority of the messages are exchanged in text format and very often reflect authors’ emotional states. Detection of the emotions in text is widely used in e-commerce or telemedicine becoming the milestone in the field of human-computer interaction. The paper presents a method of emotion recognition in Polish-language texts based on the keywords detection algorithm with lemmatization. The obtained accuracy is about 60%. The first Polish-language database of keywords expressing emotions has been also developed.
Źródło:
Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska; 2017, 7, 2; 102-105
2083-0157
2391-6761
Pojawia się w:
Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
ChatGPT: Unlocking the future of NLP in finance
Autorzy:
Zaremba, Adam
Demir, Ender
Powiązania:
https://bibliotekanauki.pl/articles/23943459.pdf
Data publikacji:
2023
Wydawca:
Fundacja Naukowa Instytut Współczesnych Finansów
Tematy:
Natural Language Processing (NLP)
ChatGPT
GPT (Generative Pre-training Transformer)
finance
financial applications
ethical considerations
regulatory considerations
future research directions
Opis:
This paper reviews the current state of ChatGPT technology in finance and its potential to improve existing NLP-based financial applications. We discuss the ethical and regulatory considerations, as well as potential future research directions in the field. The literature suggests that ChatGPT has the potential to improve NLP-based financial applications, but also raises ethical and regulatory concerns that need to be addressed. The paper highlights the need for research in robustness, interpretability, and ethical considerations to ensure responsible use of ChatGPT technology in finance.
Źródło:
Modern Finance; 2023, 1, 1; 93-98
2956-7742
Pojawia się w:
Modern Finance
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Koncepcja bazy danych jako podstawowej części programu generującego oceny opisowe w nauczaniu wczesnoszkolnym
Conception of a database as fundamental part of the program generating the descriptive grades in elementary schools
Autorzy:
Trzeciakowska, Arleta
Powiązania:
https://bibliotekanauki.pl/articles/41204129.pdf
Data publikacji:
2010
Wydawca:
Uniwersytet Kazimierza Wielkiego w Bydgoszczy
Tematy:
komputerowe przetwarzanie tekstów
NLP
generowanie tekstów w języku naturalnym
ocena opisowa
natural language processing
genering texts in natural language
descriptive grades
Opis:
Szeroki dostęp do Internetu, istnienie ogromnej ilości tekstów w wersji elektronicznej powoduje konieczność rozwoju nauki określanej jako inżynieria lingwistyczna. Zajmuje się ona szeroko pojętym przetwarzaniem danych lingwistycznych. Jednym z aspektów przetwarzania tego rodzaju danych jest generowanie tekstów w języku naturalnym. Ponieważ przeważająca ilość powstających tekstów dostępna jest w wersji elektronicznej, istnieje bardzo duże zapotrzebowanie na programy przetwarzające je. Głównym celem powstania tego artykułu jest przedstawienie koncepcji relacyjnej bazy danych będącej podstawą eksperymentalnego programu automatycznie generującego oceny opisowe w nauczaniu wczesnoszkolnym.
Common access to the Internet and huge number of the texts in numeric version causes necessity of progress of the science known as linguistic engineering. It researches the wide implied natural language processing. One of the aspects of processing that kind of data is genering the texts in the natural language. Because the most of the nascent texts are available in numeric version, there is large demand for the programs processing them. The main point of that article is to present the conception of a database that is the fundamental part of the experimental program automatically genering descriptive grades in elementary schools.
Źródło:
Studia i Materiały Informatyki Stosowanej; 2010, 3; 31-37
1689-6300
Pojawia się w:
Studia i Materiały Informatyki Stosowanej
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Towards mass customisation: automatic processing of orders for residential ship’s containers - A case study example
Autorzy:
Dudek, Adam
Patalas-Maliszewska, Justyna
Frączak, Jacek
Powiązania:
https://bibliotekanauki.pl/articles/27311441.pdf
Data publikacji:
2023
Wydawca:
Polska Akademia Nauk. Czasopisma i Monografie PAN
Tematy:
mass customization
natural language processing
automatic processing of orders
residential shipping container
masowa personalizacja
przetwarzanie języka naturalnego
kontener mieszkalny
obsługa zamówień automatyczna
Opis:
Along with changes in customer expectations, the process of ordering a house, especially one built with the most modern technology from prefabricated HQ 40-foot shipping containers, should take place in an atmosphere of free-flowing, customer-friendly conversation. Therefore, it is important that the company producing such a solution has a tool supporting such offers and orders when producing personalized solutions. This article provides an original approach to the automatic processing of orders based on an example of orders for residential shipping containers, natural language processing and so-called premises developed. Our solution overcomes the usage of records of the conversations between the customer and the retailer, in order to precisely predict the variant required for the house ordered, also when providing optimal house recommendations and when supporting manufacturers throughout product design and production. The newly proposed approach examines such recorded conversations in the sale of residential shipping containers and the rationale developed, and then offers the automatic placement of an order. Moreover, the practical significance of the solution, thus proposed, was emphasized thanks to verification by a real residential ship container manufacturing company in Poland.
Źródło:
Bulletin of the Polish Academy of Sciences. Technical Sciences; 2023, 71, 3; art. no. e145562
0239-7528
Pojawia się w:
Bulletin of the Polish Academy of Sciences. Technical Sciences
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Strategy for Improving Crowdfunding Investments in Startup Business
Стратегія покращення краудфандингових інвестицій у стартап-бізнес
Autorzy:
Pasmawati, Yanti
Tontowi, Alva Edy
Hartono, Budi
Wijayanto, Titis
Powiązania:
https://bibliotekanauki.pl/articles/21270310.pdf
Data publikacji:
2022-03-04
Wydawca:
Dnieprowski Uniwersytet Narodowy im. Ołesia Honczara
Tematy:
crowdfunding
startup business
online customer reviews
sentiment analysis
natural language processing
краудфандинг
стартап-бізнес
онлайн-відгуки клієнтів
аналіз настроїв
процеси обробки природної мови
Opis:
Purpose: This research was conducted to analyze the extent to which online customer reviews (OCRs) can stimulate investment backers as a strategy to increase crowdfunding investment. Design / Method / Approach: This research is quantitative. Natural language processing (NLP) processes review text documents based on linguistic study, a lexicon-based method is used for sentiment analysis classification based on polarity score (pros and cons), while Multiple linear regression forms a model or relationship between online customer reviews and crowdfunding investments. OCRs consisting of numeric and text features were collected from one hundred technology products (3D printing, drones, cameras, wearables) on Kickstarter.com. Findings: The study results show that, in addition to positive reviews, the number of comments and the number of sentiment reviews can increase consumer interest in investing in technology products on the crowdfunding platform. Moreover, positive reviews have the most positive effect on crowdfunding investments. Practical Implications: The study results are expected to be used for startup business, especially technology products as a strategy to increase funding investment on a reward-based crowdfunding platform. Startups can take advantage of online customer reviews as one of important factors in stimulating potential backers and backers to invest. Social implications: The strategy of utilizing online customer reviews can be used especially for technology product-based startup business to get funding support as a resource in completing a product development stage. Originality / Value: The novelty of this research is that it focuses on a technological product development stage, product campaigns on a reward-based crowdfunding platform, considering online customer reviews through sentimental (online reviews) and numerical characteristics (number of comments, number of sentiment reviews) simultaneously as a strategy to increase investment. Research Limitations / Future Research: This study has some limitations as it used only online customer reviews as an attribute that affects crowdfunding investment. Future research is expected to explore online customer reviews to determine important attributes (unique words) as consideration for strategies to increase crowdfunding investment.
Мета роботи: Це дослідження було проведено, щоб проаналізувати, наскільки онлайн-огляди клієнтів (OCRs) можуть стимулювати спонсорів інвестицій як стратегію збільшення інвестицій у краудфандинг. Дизайн / Метод / Підхід дослідження: Це дослідження є кількісним. Процеси обробки природної мови (NLP) переглядають текстові документи на основі лінгвістичного дослідження, метод на основі лексики використовується для класифікації настроїв на основі оцінки полярності (за і проти), тоді як множинна лінійна регресія формує модель або зв’язок між відгуками клієнтів в Інтернеті та краудфандинговими інвестиціями. OCRs, що складаються з числових і текстових функцій, були зібрані зі ста технологічних продуктів (3D-друк, дрони, камери, носії) на Kickstarter.com. Результати дослідження: Результати дослідження показують, що, крім позитивних відгуків, кількість коментарів і кількість відгуків про настрої можуть підвищити інтерес споживачів до інвестування в технологічні продукти на платформі краудфандингу. Більше того, позитивні відгуки найбільш позитивно впливають на краудфандингові інвестиції. Практична цінність дослідження: Очікується, що результати дослідження будуть використані для стартап-бізнесу, особливо технологічних продуктів, як стратегії збільшення інвестицій у фінансування на краудфандинговій платформі, заснованій на винагородах. Стартапи можуть скористатися перевагами онлайн-оглядів клієнтів як одним із важливих факторів стимулювання потенційних спонсорів і спонсорів, вже готових інвестувати. Соціальна цінність дослідження: Стратегія використання онлайн-відгуків клієнтів може бути використана особливо для запуску бізнесу на основі технологічних продуктів, щоб отримати фінансову підтримку як ресурс для завершення етапу розробки продукту. Оригінальність / Цінність дослідження: Новизна цього дослідження полягає в тому, що воно зосереджується на етапі розробки технологічного продукту, продуктових кампаніях на краудфандинговій платформі, заснованій на винагородах, враховуючи онлайн-відгуки клієнтів через сентиментальні (огляди в Інтернеті) та числові характеристики (кількість коментарів, кількість оцінки настроїв) одночасно як стратегія збільшення інвестицій. Обмеження дослідження / Майбутні дослідження: У цьому дослідженні є деякі обмеження, оскільки було використано лише онлайнові відгуки клієнтів як атрибут, який впливає на інвестиції в краудфандинг. Очікується, що майбутні дослідження будуть вивчати відгуки клієнтів в Інтернеті, щоб визначити важливі атрибути (унікальні слова) для розгляду стратегій збільшення інвестицій у краудфандинг.
Źródło:
European Journal of Management Issues; 2022, 30, 1; 17-24
2519-8564
Pojawia się w:
European Journal of Management Issues
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Deep learning based Tamil Parts of Speech (POS) tagger
Autorzy:
Anbukkarasi, S.
Varadhaganapathy, S.
Powiązania:
https://bibliotekanauki.pl/articles/2086879.pdf
Data publikacji:
2021
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
POS tagging
part of speech
deep learning
natural language processing
BiLSTM
Bi-directional long short term memory
tagowanie POS
części mowy
uczenie głębokie
przetwarzanie języka naturalnego
Opis:
This paper addresses the problem of part of speech (POS) tagging for the Tamil language, which is low resourced and agglutinative. POS tagging is the process of assigning syntactic categories for the words in a sentence. This is the preliminary step for many of the Natural Language Processing (NLP) tasks. For this work, various sequential deep learning models such as recurrent neural network (RNN), Long Short-Term Memory (LSTM), Gated Recurrent Unit (GRU) and Bi-directional Long Short-Term Memory (Bi-LSTM) were used at the word level. For evaluating the model, the performance metrics such as precision, recall, F1-score and accuracy were used. Further, a tag set of 32 tags and 225 000 tagged Tamil words was utilized for training. To find the appropriate hidden state, the hidden states were varied as 4, 16, 32 and 64, and the models were trained. The experiments indicated that the increase in hidden state improves the performance of the model. Among all the combinations, Bi-LSTM with 64 hidden states displayed the best accuracy (94%). For Tamil POS tagging, this is the initial attempt to be carried out using a deep learning model.
Źródło:
Bulletin of the Polish Academy of Sciences. Technical Sciences; 2021, 69, 6; e138820, 1--6
0239-7528
Pojawia się w:
Bulletin of the Polish Academy of Sciences. Technical Sciences
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Narzędzia do automatycznego streszczania tekstów w języku polskim. Stan badań naukowych i prac wdrożeniowych
Tools for automatic summarization of texts in Polish. State of the research and implementation workse
Autorzy:
Glenc, Piotr
Powiązania:
https://bibliotekanauki.pl/articles/1191628.pdf
Data publikacji:
2021
Wydawca:
Szkoła Główna Handlowa w Warszawie
Tematy:
text summarization
Natural Language Processing
text documents
Polish language processing
automation of knowledge acquisition
streszczanie tekstów
przetwarzanie języka naturalnego
dokumenty tekstowe
przetwarzanie języka polskiego
automatyzacja pozyskiwania wiedzy
Opis:
The goal of the publication is to present the state of research and works carried out in Poland on the issue of automatic text summarization. The author describes principal theoretical and methodological issues related to automatic summary generation followed by the outline of the selected works on the automatic abstracting of Polish texts. The author also provides three examples of IT tools that generate summaries of texts in Polish (Summarize, Resoomer, and NICOLAS) and their characteristics derived from the conducted experiment, which included quality assessment of generated summaries using ROUGE-N metrics. The results of both actions showed a deficiency of tools allowing to automatically create summaries of Polish texts, especially in the abstractive approach. Most of the proposed solutions are based on the extractive method, which uses parts of the original text to create its abstract. There is also a shortage of tools generating one common summary of many text documents and specialized tools generating summaries of documents related to specific subject areas. Moreover, it is necessary to intensify works on creating the corpora of Polish-language text summaries, which the computer scientists could apply to evaluate their newly developed tools.
Celem publikacji jest przedstawienie stanu badań i prac prowadzonych w Polsce nad zagadnieniem automatycznego streszczania tekstów. Przedstawiono podstawowe zagadnienia teoretyczne i metodologiczne związane z automatycznym generowaniem streszczeń dokumentów tekstowych. Na tle tych rozważań dokonano opisu wybranych prac dotyczących automatycznego generowania streszczeń tekstów polskojęzycznych. Zaprezentowano również przykłady narzędzi informatycznych generujących streszczenia tekstów w języku polskim (Summarize, Resoomer, NICOLAS) oraz dokonano oceny jakości generowanych streszczeń z wykorzystaniem miar ROUGE-N. Wyniki badań literaturowych i przeprowadzonego eksperymentu wskazały na niedobór narzędzi pozwalających na generowanie streszczeń tekstów polskojęzycznych, zwłaszcza w podejściu abstraktowym. Większość zaproponowanych rozwiązań pozwala na generowanie streszczeń w podejściu ekstrakcyjnym, polegającym na wykorzystywaniu w tworzonym streszczeniu fragmentów oryginalnego tekstu. Widoczny jest również niedobór narzędzi pozwalających na wygenerowanie jednego streszczenia wielu tekstów oraz narzędzi wyspecjalizowanych, pozwalających na generowanie streszczeń tekstów dotyczących konkretnych obszarów tematycznych. Ponadto konieczne jest zintensyfikowanie prac w obszarze tworzenia korpusów streszczeń polskojęzycznych tekstów, które będą mogły być wykorzystane do ewaluacji nowo tworzonych narzędzi.
Źródło:
e-mentor. Czasopismo naukowe Szkoły Głównej Handlowej w Warszawie; 2021, 89, 2; 67-77
1731-6758
1731-7428
Pojawia się w:
e-mentor. Czasopismo naukowe Szkoły Głównej Handlowej w Warszawie
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Il progetto "Scrivere Come Risorsa Professionale nella Svizzera Italiana": aspetti linguistici quantitativi e qualitativi delle tesi di laurea nella Scuola Universitaria Professionale della Svizzera italiana
"Writing as a Professional Resource in Southern Switzerland": Quantitative and Qualitative Aspects of Bachelor’s Theses at the University of Applied Sciences and Arts of Southern Switzerland
Autorzy:
Cignetti, Luca
Demartini, Silvia
Puccinelli, Daniele
Powiązania:
https://bibliotekanauki.pl/articles/446310.pdf
Data publikacji:
2018-06-20
Wydawca:
Wydawnictwo Adam Marszałek
Tematy:
scrittura accademica
corpus di apprendenti
analisi automatica del linguaggio
italiano scritto
insegnamento della lingua
academic writing
Italian learner corpus
natural language processing
written Italian language
language teaching
Opis:
In questo contributo viene introdotto il progetto Scrivere Come Risorsa Professionale nella Svizzera italiana (SCRiPSIt), promosso dal Dipartimento formazione e apprendimento (DFA) della Scuola Universitaria Professionale della Svizzera Italiana (SUPSI). Il progetto si propone di identificare le difficoltà e gli errori più ricorrenti nella scrittura delle tesi di laurea in lingua italiana degli studenti di tre dipartimenti della SUPSI (Dipartimento Formazione e Apprendimento, Dipartimento Tecnologie Innovative, Dipartimento Economia Aziendale, Sanità e Sociale) e di una scuola affiliata (Accademia Teatro Dimitri), con l’obiettivo di migliorarne la qualità linguistica e formale. Dopo una descrizione degli obiettivi e dello stato attuale di realizzazione del corpus, ci si sofferma sull’illustrazione dei software impiegati per l’analisi automatica, sui primi esiti dell’analisi relativa al lessico e sulle potenzialità dell’impiego della pipeline Tint. I risultati del progetto consentiranno di attivare corsi specifici dedicati alla scrittura delle tesi di laurea e più in generale alla scrittura di tipo funzionale e professionale, con applicazione potenzialmente estesa a tutti i dipartimenti della SUPSI e alle scuole affiliate.
This paper describes the highlights of Project SCRiPSIt (Writing as a Professional Resource in Southern Switzerland), led by the Department of Teaching and Learning of the University of Applied Sciences and Arts of Southern Switzerland (SUPSI). Located in the largest Italian-speaking population centre outside of Italy, SUPSI is a heterogeneous higher-learning institution with a strong emphasis on professional development. Project SCRiPSIt investigates a relatively large corpus of SUPSI bachelor’s theses by bringing together a heterogeneous research team featuring a combination of qualitative and quantitative research expertise in linguistics as well as in automated text processing. After a description of the key project objectives, we present an overview of the current state of the corpus and of the text-processing pipeline, along with some preliminary results.
Źródło:
Italica Wratislaviensia; 2018, 9.1; 35-50
2084-4514
Pojawia się w:
Italica Wratislaviensia
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Zastosowanie gier skierowanych na cel do anotacji korpusów językowych
The applications of games with a purpose used for obtaining annotated language resources
Autorzy:
Włodarczyk, Wojciech
Powiązania:
https://bibliotekanauki.pl/articles/460019.pdf
Data publikacji:
2015
Wydawca:
Fundacja Pro Scientia Publica
Tematy:
gry skierowane na cel
GWAP
crowdsourcing
human computation
przetwarzanie języka naturalnego
sztuczna inteligencja, AI-zupełne
anotacja korpusu
Wordrobe
game with a purpose
natural language processing
artificial intelligence, AI-complete
corpus annotation
Opis:
Istnienie problemów AI-zupełnych przyczyniło się do poszukiwań alternatywnych sposobów rozwiązywania problemów sztucznej inteligencji, nie opartych wyłącznie na pracy komputera. Pomimo że komunikacja jest dla ludzi czymś oczywistym, nadal nie istnieje sposób jej automatyzacji. Aktualnie powszechnie stosowanym podejściem w rozwiązywaniu problemów NLP jest podejście statystyczne, którego powodzenie zależy od wielkości korpusu językowego. Przygotowanie rzetelnego zbioru danych jest zatem kluczowym aspektem tworzenia statystycznego systemu sztucznej inteligencji. Z uwagi na zaangażowanie specjalistów jest to proces czasochłonny i kosztowny. Jednym z obiecujących podejść, pomagających zredukować czas i koszt tworzenia otagowanego korpusu, jest korzystanie z gier skierowanych na cel. Ambicją niniejszej pracy jest przybliżenie poszczególnych etapów tworzenia gry przeznaczonej do pozyskania zasobów językowych oraz omówienie skuteczności jej działania. Analiza ta zostanie przeprowadzona na podstawie kolekcji gier Wordrobe wspierających anotacje korpusu języka naturalnego.
The existence of AI-complete problems has led to a growth in research of alternative ways of solving artificial intelligence problems, which are not based solely on the computer. Although for us communication is obvious, there is still no way automate it. The current widely-used approach to solving the problems of NLP is a statistical one, whose success depends on the size of the training corpus. The preparation of a reliable set of data is therefore a key aspect in creating an artificial intelligence statistical system. Due to the involvement of a large number of specialists this is a very time-consuming and expensive process. One promising approache in helping reduce the time and cost of creating a tagged corpus is the use of games with a purpose. The objective of this paper is to present the stages of creating games with a purpose used for obtaining annotated language resources and to discuss its effectiveness. This analysis will be done based on the Wordrobe project, a collection of games created to support the gathering of an annotated corpus of natural language.
Źródło:
Ogrody Nauk i Sztuk; 2015, 5; 112-220
2084-1426
Pojawia się w:
Ogrody Nauk i Sztuk
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Korpusowe metody badania logosu i etosu
The method of corpus analysis in the study of logos and ethos
Autorzy:
Budzyńska, Katarzyna
Konat, Barbara
Koszowy, Marcin
Powiązania:
https://bibliotekanauki.pl/articles/577868.pdf
Data publikacji:
2016-07
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
metody lingwistyczne
metody mieszane
badania korpusowe
automatyczne przetwarzanie języka naturalnego
argumentacja
spór
konsensus
logos
etos
dialog
linguistic methods
mixed methods
corpus studies
automatic natural language processing
argumentation
controversy
consensus
ethos
dialogue
Opis:
Celem artykułu jest prezentacja procesu badawczego wykorzystującego lingwistyczne metody korpusowe do wzbogacania fi lozofi cznych teorii logosu (tj. struktur inferencyjnych) i etosu (tj. struktur komunikacyjnych powiązanych z charakterem czy wiarygodnością mówcy). Te dwa typy zjawisk komunikacyjnych przyciągały uwagę fi lozofów od czasów starożytnych, kiedy to Arystoteles, jako jeden z pierwszych, zaproponował sposób rozumienia tych pojęć w swojej Retoryce. Współcześnie problem eksplozji danych, związany z rozwojem nowoczesnych technologii i Internetu, postawił przed fi lozofi ą nowe wyzwanie: możliwość zautomatyzowania procesu przetwarzania dużych zasobów danych i wydobywania informacji dotyczących tego, jakie opinie i argumenty ludzie formułują, oraz tego, kto jest uznawany za wiarygodnego mówcę, wymaga dobrego zrozumienia tego, w jaki sposób ludzie faktycznie konstruują struktury logosu i etosu – nawet jeżeli są to niepoprawne konstrukcje. Stąd też w naszych badaniach stosujemy następującą metodologię: (1) wychodzimy od teorii fi lozofi cznych, (2) następnie wybieramy dziedzinę dyskursu, dla której chcemy zidentyfi kować typowe językowe zachowania związane z logosem i etosem, (3) dane te analizujemy przy użyciu wybranych teorii, (4) na podstawie statystyk i wglądu w naturę danego dyskursu formułujemy nowe twierdzenia dotyczące interesujących nas zjawisk, (5) aby w końcu móc zastosować wyniki tych badań do wspierania automatycznego wydobywania struktur logosu i etosu z dużych zasobów danych języka naturalnego.
The aim of this paper is to discuss research process which employs linguistic methods of corpus analysis in order to better understand dialogue strategies people use. Theories developed in such a way are then suitable to be used for argument mining, i.e. for automated identifi cation and extraction of these strategies from large resources of texts in natural language. The paper considers two types of communication phenomena related to Aristotelian notions of logos (i.e. inferential premise-conclusion structures) and ethos (i.e.communication structures related to the character of the speaker). The goal of the paper is accomplished in four steps. The task of identifying the main problem (Sect. 1) allows us to give an outline of the corpus study method for automated argument mining (Sect. 2). Next, the explication of this method paves the way for discussing two examples of applying the corpus method to analyse logos and ethos, namely controversy and consensus (Sect. 3) and ethotic structures in a dialogue (Sect. 4).
Źródło:
Zagadnienia Naukoznawstwa; 2016, 52, 3(209); 385-404
0044-1619
Pojawia się w:
Zagadnienia Naukoznawstwa
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Innowacyjność polskiej gospodarki na tle Unii Europejskiej z uwzględnieniem specyfiki sektora informatycznego
Innovation of Polish economy in comparison to the European Union, taking into account the information sector
Autorzy:
Kansy, Dominika
Powiązania:
https://bibliotekanauki.pl/articles/589713.pdf
Data publikacji:
2018
Wydawca:
Uniwersytet Ekonomiczny w Katowicach
Tematy:
Działalność badawczo-rozwojowa
Działalność innowacyjna przedsiębiorstwa
Innowacje
Przetwarzanie języka naturalnego
Reguły asocjacji
Złożony wskaźnik innowacyjności
Association rules
Innovations
Innovative activity of the company
Natural language processing
Research and development activity
Summary Innovation Index
Opis:
Międzynarodowa walka konkurencyjna na poziomie firm przenosi się na rynek krajowy. Zdolność do innowacji i ich skutecznego wprowadzania staje się wyznacznikiem konkurencyjności produkcji krajowej, a tym samym czynnikiem wspomagającym zapewnienie bezpieczeństwa ekonomicznego kraju. Głównym celem artykułu jest scharakteryzowanie polskiej gospodarki pod kątem innowacyjności. Szczególny nacisk położono na zaprezentowanie działalności innowacyjnej polskich przedsiębiorstw w ostatnich latach, jak również przedstawiono pozycję Polski w unijnym rankingu innowacyjności. Z przeprowadzonej analizy wynika, że mimo większych nakładów na działalność badawczo- -rozwojową oraz zwiększenia inwestycji w zakresie aktywności innowacyjnej, nie przekłada się to na polepszenie wskaźnika innowacyjności dla Polski w stosunku do wskaźników innowacyjności pozostałych krajów UE. Ponadto w artykule zwrócono uwagę na wpływ sektora informatycznego na skuteczność działalności innowacyjnej. Przedstawiono wyniki badań przeprowadzonych na danych z grudnia 2016 r., które zostały pobrane z portalu www.pracuj.pl, a które mogą być uznane za dodatkowy czynnik określający poziom innowacyjności polskich przedsiębiorstw. Analizie poddano 709 ofert pracy z sektora informatycznego. Do analizy zastosowano następujące metody: przetwarzanie języka naturalnego, reguły asocjacji i program R. Przeprowadzone badania pozwoliły stwierdzić, że w badanym okresie firmy zamieszczające oferty pracy związane z działami IT w 99% były nastawione na poszukiwanie pracowników wyspecjalizowanych w dobrym posługiwaniu się jednym narzędziem, techniką informatyczną, metodyką, językiem programowania i mających duże doświadczenie w tym zakresie, a jednocześnie posiadających kilka zdolności miękkich. W podsumowaniu ujęto najważniejsze wnioski i możliwe kierunki prac w tej dziedzinie.
International competitive rivalry at the company level is shifting to the domestic market. The ability to create and effectively implement innovations becomes both a determinant of the competitiveness of domestic production, and a factor supporting the country's economic security. The main goal of this article is to characterize the Polish economy in terms of innovation. Particular emphasis is placed on presenting the innovative activity of Polish enterprises in recent years, as well as the position of Poland in the EU innovation ranking. The analysis shows that an increase in expenditure on research and development, and an increase in investments in fields of innovation, do not translate into an improvement of an innovation index for Poland in relation to indicators of other EU countries. Moreover, the article highlights an impact of the IT sector on the effectiveness of innovative activity. It presents the results of a research conducted in December 2016. The data, which was a basis for the analysis, was taken from the Pracuj.pl portal. The mentioned findings can be considered as an additional factor determining the level of innovation of Polish enterprises. The analysis covers 709 job offers from the IT sector. Methods used for the analysis include: natural language processing, association rules, and the R program. The conducted research allows to claim that, in the analyzed period of time, companies posting job offers related to IT departments were focused on searching for employees who are specialized in good handling of one tool, in IT technology, methodology, programming language, and who have extensive experience in this field accompanied by several soft skills. The summary of this article includes the most important conclusions, and possible directions of further work in this field.
Źródło:
Studia Ekonomiczne; 2018, 362; 111-126
2083-8611
Pojawia się w:
Studia Ekonomiczne
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Analiza sentymentu – metoda analizy danych jakościowych. Przykład zastosowania oraz ewaluacja słownika RID i metody klasyfikacji Bayesa w analizie danych jakościowych
Sentiment analysis. An example of application and evaluation of RID dictionary and Bayesian classification methods in qualitative data analysis approach
Autorzy:
Tomanek, Krzysztof
Powiązania:
https://bibliotekanauki.pl/articles/622902.pdf
Data publikacji:
2014
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
analiza danych jakościowych
analiza sentymentu
analiza treści
text mining
kodowanie tekstów
przetwarzanie języka naturalnego słownik RID
naiwny klasyfikator Bayesa
CAQDAS
qualitative data analysis
sentiment analysis
content analysis
coding techniques
natural language processing
RID dictionary
naive Bayes
Opis:
Celem artykułu jest prezentacja podstawowych metod klasyfikacji jakościowych danych tekstowych. Metody te korzystają z osiągnięć wypracowanych w takich obszarach, jak przetwarzanie języka naturalnego i analiza danych nieustrukturalizowanych. Przedstawiam i porównuję dwie techniki analityczne stosowane wobec danych tekstowych. Pierwsza to analiza z zastosowaniem słownika tematycznego. Druga technika oparta jest na idei klasyfikacji Bayesa i opiera się na rozwiązaniu zwanym naiwnym klasyfikatorem Bayesa. Porównuję efektywność dwóch wspomnianych technik analitycznych w ramach analizy sentymentu. Akcentuję rozwiązania mające na celu zbudowanie trafnego, w kontekście klasyfikacji tekstów, słownika. Porównuję skuteczność tak zwanych analiz nadzorowanych do skuteczności analiz zautomatyzowanych. Wyniki, które prezentuję, wzmacniają wniosek, którego treść brzmi: słownik, który w przeszłości uzyskał dobrą ocenę jako narzędzie klasyfikacyjne, gdy stosowany jest wobec nowego materiału empirycznego, powinien przejść fazę ewaluacji. Jest to, w proponowanym przeze mnie podejściu, podstawowy proces adaptacji słownika analitycznego, traktowanego jako narzędzie klasyfikacji tekstów.
The purpose of this article is to present the basic methods for classifying text data. These methods make use of achievements earned in areas such as: natural language processing, the analysis of unstructured data. I introduce and compare two analytical techniques applied to text data. The first analysis makes use of thematic vocabulary tool (sentiment analysis). The second technique uses the idea of Bayesian classification and applies, so-called, naive Bayes algorithm. My comparison goes towards grading the efficiency of use of these two analytical techniques. I emphasize solutions that are to be used to build dictionary accurate for the task of text classification. Then, I compare supervised classification to automated unsupervised analysis’ effectiveness. These results reinforce the conclusion that a dictionary which has received good evaluation as a tool for classification should be subjected to review and modification procedures if is to be applied to new empirical material. Adaptation procedures used for analytical dictionary become, in my proposed approach, the basic step in the methodology of textual data analysis.
Źródło:
Przegląd Socjologii Jakościowej; 2014, 10, 2; 118-136
1733-8069
Pojawia się w:
Przegląd Socjologii Jakościowej
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Językoznawstwo korpusowe w badaniach medioznawczych – ujęcie historyczne i praktyczne
Corpus Linguistics in Media Studies – a Historical and Practical Approach
Autorzy:
Hess, Agnieszka
Hwaszcz, Krzysztof
Powiązania:
https://bibliotekanauki.pl/articles/31340792.pdf
Data publikacji:
2022
Wydawca:
Uniwersytet Rzeszowski. Wydawnictwo Uniwersytetu Rzeszowskiego
Tematy:
discourse analysis
media analysis
corpus linguistics
natural language
processing tools
analiza dyskursu
analiza mediów
językoznawstwo korpusowe
narzędzia do przetwarzania języka naturalnego
Opis:
Celem artykułu jest przedstawienie korzyści i zagrożeń wynikających z implementacji komputerowego językoznawstwa korpusowego do analizy dyskursu. Autorzy opisują genezę i rozwój narzędzi do przetwarzaniu języka naturalnego (z ang. Natural Language Processing, NLP) w ujęciu historycznym oraz prezentują przykłady ich zastosowania w obszarze nauk społecznych, w szczególności w metodologii nauk o komunikacji społecznej i mediach. Praktyczne ujęcie tematu obrazują fragmentaryczne wyniki badań zrealizowanych w Instytucie Dziennikarstwa, Mediów i Komunikacji Społecznej Uniwersytetu Jagiellońskiego we współpracy z konsorcjum CLARIN-PL. Artykuł prezentuje zastosowanie narzędzi NLP w analizie korpusu dyskursu parlamentarnego z lat 1989– 2019 pod kątem uwarunkowań instytucjonalizacji dialogu obywatelskiego w Polsce oraz w analizie porównawczej tematu wielokulturowości w dyskursie rady miasta i dyskursie mediów w Krakowie w okresie 2014–2018 (VII kadencja Rady Miasta Krakowa). Autorzy wskazują, w której fazie i jak lingwistyka komputerowa wpisuje się w szeroki kontekst problematyki związanej z badaniami komunikologicznymi – przede wszystkim jako narzędzie, które może wspierać proces wnioskowania.
The aim of this paper is to present the benefits and risks of implementing corpus linguistics for discourse analysis. The authors describe the origins and development of Natural Language Processing (NLP) tools in a historical perspective and provide examples of their application in social sciences, particularly in the methodology of Social Communication and Media Sciences. Fragmentary findings of studies carried out at the Institute of Journalism, Media and Social Communication at the Jagiellonian University in collaboration with the CLARIN-PL consortium illustrate a practical approach to the topic. The article presents the application of NLP tools in the analysis of the corpus of parliamentary discourse from 1989-2019 in terms of determinants for the institutionalization of civic dialogue in Poland and also in the comparative analysis of multiculturalism in the city council discourse and media discourse in Krakow between 2014–2018 (7th term of the Krakow City Council). The authors indicate in which phase and at which stage of communication research the use of computational linguistics can support the conclusion.
Źródło:
UR Journal of Humanities and Social Sciences; 2022, 25, 4; 118-132
2543-8379
Pojawia się w:
UR Journal of Humanities and Social Sciences
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Enhancing regular expressions for Polish text processing
Mechanizm rozszerzonych wyrażeń regularnych do przetwarzania tekstów języka polskiego
Autorzy:
Dorosz, K.
Szczerbińska, A.
Powiązania:
https://bibliotekanauki.pl/articles/305579.pdf
Data publikacji:
2009
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
wyrażenia regularne
język naturalny
język polski
biblioteka CLP
regular expressions
regex
natural language
Polish language processing
CLP library
Opis:
The paper presents proposition of regular expressions engine based on the modified Thompson’s algorithm dedicated to the Polish language processing. The Polish inflectional dictionary has been used for enhancing regular expressions engine and syntax. Instead of using characters as a basic element of regular expressions patterns (as it takes place in BRE or ERE standards) presented tool gives possibility of using words from a natural language or labels describing words grammar properties in regex syntax.
W artykule zaprezentowano propozycje mechanizmu wyrażeń regularnych w oparciu o zmodyfikowany algorytm Thompsona dostosowany do przetwarzania tekstów w języku polskim. Prezentowane wyrażenia regularne wykorzystują słownik fleksyjny języka polskiego i pozwalają na budowę wzorców, w których elementami podstawowymi są wyrazy języka polskiego lub etykiety gramatyczne, a nie znaki (jak to ma miejsce w klasycznych wyrażeniach regularnych standardu BRE czy ERE).
Źródło:
Computer Science; 2009, 10; 19-35
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Parkinson’s disease diagnostics using AI and natural language knowledge transfer
Autorzy:
Chronowski, Maurycy
Kłaczyński, Maciej
Dec-Ćwiek, Małgorzata
Porębska, Karolina
Powiązania:
https://bibliotekanauki.pl/articles/27313815.pdf
Data publikacji:
2024
Wydawca:
Polska Akademia Nauk. Polskie Towarzystwo Diagnostyki Technicznej PAN
Tematy:
Parkinson’s disease
digital diagnostics
artificial intelligence
speech processing
Opis:
With global life expectancy rising every year, ageing-associated diseases are becoming an increasingly important problem. Very often, successful treatment relies on early diagnosis. In this work, the issue of Parkinson's disease (PD) diagnostics is tackled. It is particularly important, as there are no certain antemortem methods of diagnosing PD - meaning that the presence of the disease can only be confirmed after the patient's death. In our work, we propose a non-invasive approach for classification of raw speech recordings for PD recognition using deep learning models. The core of the method is an audio classifier using knowledge transfer from a pretrained natural language model, namely wav2vec 2.0. The model was tested on a group of 38 PD patients and 10 healthy persons above the age of 50. A dataset of speech recordings acquired using a smartphone recorder was constructed and the recordings were labelled as PD/non-PD with the severity of the disease additionally rated using Hoehn-Yahr scale. We then benchmarked the classification performance against baseline methods. Additionally, we show an assessment of human-level performance with neurology professionals.
Źródło:
Diagnostyka; 2024, 25, 1; art. no. 2024103
1641-6414
2449-5220
Pojawia się w:
Diagnostyka
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
System of semantic integration of non-structuralized documents in natural language in the domain of metallurgy
System integracji semantycznej nieustrukturyzowanych dokumentów w języku naturalnym z zakresu metalurgii
Autorzy:
Kluska-Nawarecka, S.
Regulski, K.
Krzyżak, M.
Leśniak, G.
Gurda, M.
Powiązania:
https://bibliotekanauki.pl/articles/350806.pdf
Data publikacji:
2013
Wydawca:
Polska Akademia Nauk. Czytelnia Czasopism PAN
Tematy:
knowledge engineering
documents processing
ontologies
semantic integration
technological knowledge
metallurgy
inżynieria wiedzy
przetwarzanie dokumentów
ontologia
integracja semantyczna
wiedza technologiczna
metalurgia
Opis:
This paper presents assumptions for a system of automatic cataloging and semantic text documents searching. As an example, a document repository for metals processing technology was used. The system by using ontological model provides the user with a new approach to the exploration of database resources - easier and more intuitive information search. In the current document storage systems, searching is often based only on keywords and descriptions created manually by the system administrator. The use of text mining methods, especially latent semantic indexing, allows automatic clustering of documents with respect to their content. The result of this clustering is integrated with the ontological model, making navigation through documents resources intuitive and does not require the manual creation of directories. Such an approach seems to be particularly useful in a situation where we are dealing with large repositories of unstructured documents from such sources as the Internet. This situation is very typical for cases of searching information and knowledge in the area of metallurgy, for example with regard to innovation and non-traditional suppliers of materials and equipment.
Artykuł prezentuje założenia systemu umożliwiającego automatyczne katalogowanie i przeszukiwanie merytoryczne dokumentów tekstowych na przykładzie repozytorium dokumentów dotyczących technologii przetwórstwa metali. System dzięki zastosowaniu modelu ontologicznego ma umożliwić użytkownikowi nowe podejście do eksploracji zasobów bazodanowych - prostsze i bardziej intuicyjne wyszukiwanie informacji. W obecnych systemach przechowywania dokumentów często jedyna forma wyszukiwania jest wyszukiwanie na podstawie katalogu słów kluczowych i deskrypcji tworzonych ręcznie przez administratora systemu. Zastosowanie metod eksploracji tekstu, w szczególności ukrytego indeksowania semantycznego umożliwia automatyczne grupowanie dokumentów pod względem ich zawartości. Wynik takiego grupowania zostaje zintegrowany z modelem ontologicznym, przez co nawigacja poprzez zasoby dokumentów staje się intuicyjna i nie wymaga tworzenia ręcznie katalogów. Takie podejście wydaje się szczególnie przydatne w sytuacji, gdy mamy do czynienia z dużymi repozytoriami nieuporzadkowanych dokumentów pochodzących m.in. z sieci Internet.
Źródło:
Archives of Metallurgy and Materials; 2013, 58, 3; 927-930
1733-3490
Pojawia się w:
Archives of Metallurgy and Materials
Dostawca treści:
Biblioteka Nauki
Artykuł
    Wyświetlanie 1-67 z 67

    Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies