Informacja

Drogi użytkowniku, aplikacja do prawidłowego działania wymaga obsługi JavaScript. Proszę włącz obsługę JavaScript w Twojej przeglądarce.

Wyszukujesz frazę "natural language processing" wg kryterium: Wszystkie pola


Tytuł:
ChatGPT: Unlocking the future of NLP in finance
Autorzy:
Zaremba, Adam
Demir, Ender
Powiązania:
https://bibliotekanauki.pl/articles/23943459.pdf
Data publikacji:
2023
Wydawca:
Fundacja Naukowa Instytut Współczesnych Finansów
Tematy:
Natural Language Processing (NLP)
ChatGPT
GPT (Generative Pre-training Transformer)
finance
financial applications
ethical considerations
regulatory considerations
future research directions
Opis:
This paper reviews the current state of ChatGPT technology in finance and its potential to improve existing NLP-based financial applications. We discuss the ethical and regulatory considerations, as well as potential future research directions in the field. The literature suggests that ChatGPT has the potential to improve NLP-based financial applications, but also raises ethical and regulatory concerns that need to be addressed. The paper highlights the need for research in robustness, interpretability, and ethical considerations to ensure responsible use of ChatGPT technology in finance.
Źródło:
Modern Finance; 2023, 1, 1; 93-98
2956-7742
Pojawia się w:
Modern Finance
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Compressing sentiment analysis CNN models for efficient hardware processing
Autorzy:
Wróbel, Krzysztof
Karwatowski, Michał
Wielgosz, Maciej
Pietroń, Marcin
Wiatr, Kazimierz
Powiązania:
https://bibliotekanauki.pl/articles/305234.pdf
Data publikacji:
2020
Wydawca:
Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie. Wydawnictwo AGH
Tematy:
natural language processing
convolutional neural networks
FPGA
compression
Opis:
Convolutional neural networks (CNNs) were created for image classification tasks. Shortly after their creation, they were applied to other domains, including natural language processing (NLP). Nowadays, solutions based on artificial intelligence appear on mobile devices and embedded systems, which places constraints on memory and power consumption, among others. Due to CNN memory and computing requirements, it is necessary to compress them in order to be mapped to the hardware. This paper presents the results of the compression of efficient CNNs for sentiment analysis. The main steps involve pruning and quantization. The process of mapping the compressed network to an FPGA and the results of this implementation are described. The conducted simulations showed that the 5-bit width is enough to ensure no drop in accuracy when compared to the floating-point version of the network. Additionally, the memory footprint was significantly reduced (between 85 and 93% as compared to the original model).
Źródło:
Computer Science; 2020, 21 (1); 25-41
1508-2806
2300-7036
Pojawia się w:
Computer Science
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Analiza fleksyjna tekstów historycznych i zmienność fleksji polskiej z perspektywy danych korpusowych
Autorzy:
Woliński, Marcin
Kieraś, Witold
Powiązania:
https://bibliotekanauki.pl/articles/1630443.pdf
Data publikacji:
2020-10-30
Wydawca:
Towarzystwo Kultury Języka
Tematy:
electronic text corpus
natural language processing
inflection of Polish
history of language
Opis:
The subject matter of this paper is Chronofleks, a computer system (http://chronofleks.nlp.ipipan.waw.pl/) modelling Polish inflection based on a corpus material. The system visualises changes of inflectional paradigms of individual lexemes over time and enables examination of the variability of the frequency of inflected form groups distinguished based on various criteria. Feeding Chronofleks with corpus data required development of IT tools to ensure an inflectional processing sequence of texts analogous to the ones used for modern language; they comprise a transcriber, a morphological analyser, and a tagger. The work was performed on data from three historical periods (1601–1772, 1830–1918, and modern ones) elaborated in independent projects. Therefore, finding a common manner of describing data from the individual periods was a significant element of the work.
Źródło:
Poradnik Językowy; 2020, 777, 8; 66-80
0551-5343
Pojawia się w:
Poradnik Językowy
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Zastosowanie gier skierowanych na cel do anotacji korpusów językowych
The applications of games with a purpose used for obtaining annotated language resources
Autorzy:
Włodarczyk, Wojciech
Powiązania:
https://bibliotekanauki.pl/articles/460019.pdf
Data publikacji:
2015
Wydawca:
Fundacja Pro Scientia Publica
Tematy:
gry skierowane na cel
GWAP
crowdsourcing
human computation
przetwarzanie języka naturalnego
sztuczna inteligencja, AI-zupełne
anotacja korpusu
Wordrobe
game with a purpose
natural language processing
artificial intelligence, AI-complete
corpus annotation
Opis:
Istnienie problemów AI-zupełnych przyczyniło się do poszukiwań alternatywnych sposobów rozwiązywania problemów sztucznej inteligencji, nie opartych wyłącznie na pracy komputera. Pomimo że komunikacja jest dla ludzi czymś oczywistym, nadal nie istnieje sposób jej automatyzacji. Aktualnie powszechnie stosowanym podejściem w rozwiązywaniu problemów NLP jest podejście statystyczne, którego powodzenie zależy od wielkości korpusu językowego. Przygotowanie rzetelnego zbioru danych jest zatem kluczowym aspektem tworzenia statystycznego systemu sztucznej inteligencji. Z uwagi na zaangażowanie specjalistów jest to proces czasochłonny i kosztowny. Jednym z obiecujących podejść, pomagających zredukować czas i koszt tworzenia otagowanego korpusu, jest korzystanie z gier skierowanych na cel. Ambicją niniejszej pracy jest przybliżenie poszczególnych etapów tworzenia gry przeznaczonej do pozyskania zasobów językowych oraz omówienie skuteczności jej działania. Analiza ta zostanie przeprowadzona na podstawie kolekcji gier Wordrobe wspierających anotacje korpusu języka naturalnego.
The existence of AI-complete problems has led to a growth in research of alternative ways of solving artificial intelligence problems, which are not based solely on the computer. Although for us communication is obvious, there is still no way automate it. The current widely-used approach to solving the problems of NLP is a statistical one, whose success depends on the size of the training corpus. The preparation of a reliable set of data is therefore a key aspect in creating an artificial intelligence statistical system. Due to the involvement of a large number of specialists this is a very time-consuming and expensive process. One promising approache in helping reduce the time and cost of creating a tagged corpus is the use of games with a purpose. The objective of this paper is to present the stages of creating games with a purpose used for obtaining annotated language resources and to discuss its effectiveness. This analysis will be done based on the Wordrobe project, a collection of games created to support the gathering of an annotated corpus of natural language.
Źródło:
Ogrody Nauk i Sztuk; 2015, 5; 112-220
2084-1426
Pojawia się w:
Ogrody Nauk i Sztuk
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Dependability aspects of language technology infrastructure
Autorzy:
Walkowiak, T.
Pol, M.
Powiązania:
https://bibliotekanauki.pl/articles/2068758.pdf
Data publikacji:
2018
Wydawca:
Uniwersytet Morski w Gdyni. Polskie Towarzystwo Bezpieczeństwa i Niezawodności
Tematy:
dependability
language technology infrastructure
natural language processing
micro-service architecture
CLARIN-PL
Opis:
The paper presents dependability analysis of CLARIN-PL Centre of Language Technology (CLT). It describes infrastructure, high availability aspects and micro-service architecture used in CLARIN-PL applications. Microservices architecture improves dependability in respect to availability and reliability and to some extent safety. It is comprised of the mechanisms of reliable communication of applications, replication, recovery, and transaction processing. CLT has also a set of components for failure detection, monitoring and autonomic management, and distributed security policy enforcement.
Źródło:
Journal of Polish Safety and Reliability Association; 2018, 9, 3; 101--108
2084-5316
Pojawia się w:
Journal of Polish Safety and Reliability Association
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
The impact of administrator working hours on the reliability of the Centre of Language Technology
Autorzy:
Walkowiak, T.
Pol, M.
Powiązania:
https://bibliotekanauki.pl/articles/2068897.pdf
Data publikacji:
2017
Wydawca:
Uniwersytet Morski w Gdyni. Polskie Towarzystwo Bezpieczeństwa i Niezawodności
Tematy:
reliability
repair time
working hours
language technology infrastructure
natural language processing
CLARIN-PL
Opis:
The paper presents reliability analysis of CLARIN-PL Centre of Language Technology (CLT). The CLT is a Polish part of the language technology infrastructure developed by CLARIN project. The main goal of which is to support researchers in humanities and social sciences. The infrastructure is a complex computer system that enables combining language tools with language resources into processing chains. Authors present the system structure, analyse types of faults and define the CLT reliability model. The model takes into account the fact the time gap, between the failure and the repair of the system is not exponential since repair actions are taken only when administrators are at work (assuming that administrators are not working 24/7). The model is used to estimate reliability metrics (mean time and 90th percentile of relative down time and relative partial operational time) by a use of Monte-Carlo simulation. Moreover, analysis of possible improvement in the CLT organisation and its influence on the estimated metrics is given.
Źródło:
Journal of Polish Safety and Reliability Association; 2017, 8, 1; 167--174
2084-5316
Pojawia się w:
Journal of Polish Safety and Reliability Association
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Examination of texts lexis using a Polish dictionary
Badanie leksyki tekstu na podstawie słownika języka polskiego
Autorzy:
Voitovych, Roman
Łukasik, Edyta
Powiązania:
https://bibliotekanauki.pl/articles/2055125.pdf
Data publikacji:
2021
Wydawca:
Politechnika Lubelska. Instytut Informatyki
Tematy:
natural language processing
lexis analysis
Jaccard similarity coefficient
Partitioning Around Medoids
przetwarzanie języka naturalnego
analiza leksyczna
indeks Jaccarda
Opis:
This paper presents an approach to compare and classify books written in the Polish language by comparing their lexis fields. Books can be classified by their features, such as literature type, literary genre, style, author, etc. Using a preas-sembled dictionary and Jaccard index, the authors managed to prove a lexical likeness for books. Further analysis with the PAM clustering algorithm presented a lexical connection between books of the same type or author. Analysis of values of similarities of any particular field on one side and some anomalous tendencies in other cases suggest that recognition of other features is possible. The method presented in this article allows to draw conclusions about the con-nection between any arbitrary books based solely on their vocabulary.
Artykuł prezentuje metodę porównania i klasyfikacji książek napisanych w języku polskim na podstawie ich leksyki. Książki można dzielić, korzystając z ich cech, np. rodzaju literatury, gatunku literackiego, stylu, autora itp. Korzystając ze skompilowanego słownika i indeksu Jaccarda, udowodniona została hipoteza dotycząca podobieństwa książek rozpatrywanego pod kątem ich leksyki. Kolejna analiza za pomocą algorytmu klastrowego PAM wskazuje na związek leksykalny pomiędzy książkami jednego rodzaju literatury lub autora. Analiza wartości współczynników poszczególnych obszarów z jednej strony i anomalia w zachowaniu w niektórych przypadkach sugeruje, że wyodrębnienie kolejnych cech jest możliwe. Metoda przedstawiona w tym artykule pozwala wyciągać wnioski o relacjach między książkami, korzystając wyłącznie z ich słownictwa.
Źródło:
Journal of Computer Sciences Institute; 2021, 21; 316--323
2544-0764
Pojawia się w:
Journal of Computer Sciences Institute
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Fantinuoli, Claudio (Hg.) (2018): Interpreting and technology. (Translation and Multilingual Natural Language Processing 11). Berlin: Language Science Press. 149 S.
Autorzy:
Ustaszewski, Michael
Powiązania:
https://bibliotekanauki.pl/articles/1191732.pdf
Data publikacji:
2020
Wydawca:
Uniwersytet Wrocławski. Oficyna Wydawnicza ATUT – Wrocławskie Wydawnictwo Oświatowe
Źródło:
Studia Translatorica; 2020, 11; 212-218
2084-3321
2657-4802
Pojawia się w:
Studia Translatorica
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Sémantique lexicale et corpus : l’étude du lexique transdisciplinaire des écrits scientifiques
Autorzy:
Tutin, Agnès
Powiązania:
https://bibliotekanauki.pl/articles/605411.pdf
Data publikacji:
2008
Wydawca:
Uniwersytet Marii Curie-Skłodowskiej. Wydawnictwo Uniwersytetu Marii Curie-Skłodowskiej
Tematy:
corpus linguistics
natural language processing
Opis:
This paper deals with a corpus-based linguistic study in lexical semantics. Our topic is the general scientific lexicon, the cross-disciplinary lexicon peculiar to the academic genre. We show how the use of a large corpus enables to develop an inventory of this vocabulary and present the first semantic treatments performed with the help of the corpus, with a first experiment in natural language processing..
Źródło:
Lublin Studies in Modern Languages and Literature; 2008, 32; 242-260
0137-4699
Pojawia się w:
Lublin Studies in Modern Languages and Literature
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Experimental Comparison of Pre-Trained Word Embedding Vectors of Word2Vec, Glove, FastText for Word Level Semantic Text Similarity Measurement in Turkish
Autorzy:
Tulu, Cagatay Neftali
Powiązania:
https://bibliotekanauki.pl/articles/2201815.pdf
Data publikacji:
2022
Wydawca:
Stowarzyszenie Inżynierów i Techników Mechaników Polskich
Tematy:
semantic word similarity
word embeddings
NLP
Turkish NLP
natural language processing
Opis:
This study aims to evaluate experimentally the word vectors produced by three widely used embedding methods for the word-level semantic text similarity in Turkish. Three benchmark datasets SimTurk, AnlamVer, and RG65_Turkce are used in this study to evaluate the word embedding vectors produced by three different methods namely Word2Vec, Glove, and FastText. As a result of the comparative analysis, Turkish word vectors produced with Glove and FastText gained better correlation in the word level semantic similarity. It is also found that The Turkish word coverage of FastText is ahead of the other two methods because the limited number of Out of Vocabulary (OOV) words have been observed in the experiments conducted for FastText. Another observation is that FastText and Glove vectors showed great success in terms of Spearman correlation value in the SimTurk and AnlamVer datasets both of which are purely prepared and evaluated by local Turkish individuals. This is another indicator showing that these aforementioned datasets are better representing the Turkish language in terms of morphology and inflections.
Źródło:
Advances in Science and Technology. Research Journal; 2022, 16, 4; 147--156
2299-8624
Pojawia się w:
Advances in Science and Technology. Research Journal
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Koncepcja bazy danych jako podstawowej części programu generującego oceny opisowe w nauczaniu wczesnoszkolnym
Conception of a database as fundamental part of the program generating the descriptive grades in elementary schools
Autorzy:
Trzeciakowska, Arleta
Powiązania:
https://bibliotekanauki.pl/articles/41204129.pdf
Data publikacji:
2010
Wydawca:
Uniwersytet Kazimierza Wielkiego w Bydgoszczy
Tematy:
komputerowe przetwarzanie tekstów
NLP
generowanie tekstów w języku naturalnym
ocena opisowa
natural language processing
genering texts in natural language
descriptive grades
Opis:
Szeroki dostęp do Internetu, istnienie ogromnej ilości tekstów w wersji elektronicznej powoduje konieczność rozwoju nauki określanej jako inżynieria lingwistyczna. Zajmuje się ona szeroko pojętym przetwarzaniem danych lingwistycznych. Jednym z aspektów przetwarzania tego rodzaju danych jest generowanie tekstów w języku naturalnym. Ponieważ przeważająca ilość powstających tekstów dostępna jest w wersji elektronicznej, istnieje bardzo duże zapotrzebowanie na programy przetwarzające je. Głównym celem powstania tego artykułu jest przedstawienie koncepcji relacyjnej bazy danych będącej podstawą eksperymentalnego programu automatycznie generującego oceny opisowe w nauczaniu wczesnoszkolnym.
Common access to the Internet and huge number of the texts in numeric version causes necessity of progress of the science known as linguistic engineering. It researches the wide implied natural language processing. One of the aspects of processing that kind of data is genering the texts in the natural language. Because the most of the nascent texts are available in numeric version, there is large demand for the programs processing them. The main point of that article is to present the conception of a database that is the fundamental part of the experimental program automatically genering descriptive grades in elementary schools.
Źródło:
Studia i Materiały Informatyki Stosowanej; 2010, 3; 31-37
1689-6300
Pojawia się w:
Studia i Materiały Informatyki Stosowanej
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Analiza sentymentu – metoda analizy danych jakościowych. Przykład zastosowania oraz ewaluacja słownika RID i metody klasyfikacji Bayesa w analizie danych jakościowych
Sentiment analysis. An example of application and evaluation of RID dictionary and Bayesian classification methods in qualitative data analysis approach
Autorzy:
Tomanek, Krzysztof
Powiązania:
https://bibliotekanauki.pl/articles/622902.pdf
Data publikacji:
2014
Wydawca:
Uniwersytet Łódzki. Wydawnictwo Uniwersytetu Łódzkiego
Tematy:
analiza danych jakościowych
analiza sentymentu
analiza treści
text mining
kodowanie tekstów
przetwarzanie języka naturalnego słownik RID
naiwny klasyfikator Bayesa
CAQDAS
qualitative data analysis
sentiment analysis
content analysis
coding techniques
natural language processing
RID dictionary
naive Bayes
Opis:
Celem artykułu jest prezentacja podstawowych metod klasyfikacji jakościowych danych tekstowych. Metody te korzystają z osiągnięć wypracowanych w takich obszarach, jak przetwarzanie języka naturalnego i analiza danych nieustrukturalizowanych. Przedstawiam i porównuję dwie techniki analityczne stosowane wobec danych tekstowych. Pierwsza to analiza z zastosowaniem słownika tematycznego. Druga technika oparta jest na idei klasyfikacji Bayesa i opiera się na rozwiązaniu zwanym naiwnym klasyfikatorem Bayesa. Porównuję efektywność dwóch wspomnianych technik analitycznych w ramach analizy sentymentu. Akcentuję rozwiązania mające na celu zbudowanie trafnego, w kontekście klasyfikacji tekstów, słownika. Porównuję skuteczność tak zwanych analiz nadzorowanych do skuteczności analiz zautomatyzowanych. Wyniki, które prezentuję, wzmacniają wniosek, którego treść brzmi: słownik, który w przeszłości uzyskał dobrą ocenę jako narzędzie klasyfikacyjne, gdy stosowany jest wobec nowego materiału empirycznego, powinien przejść fazę ewaluacji. Jest to, w proponowanym przeze mnie podejściu, podstawowy proces adaptacji słownika analitycznego, traktowanego jako narzędzie klasyfikacji tekstów.
The purpose of this article is to present the basic methods for classifying text data. These methods make use of achievements earned in areas such as: natural language processing, the analysis of unstructured data. I introduce and compare two analytical techniques applied to text data. The first analysis makes use of thematic vocabulary tool (sentiment analysis). The second technique uses the idea of Bayesian classification and applies, so-called, naive Bayes algorithm. My comparison goes towards grading the efficiency of use of these two analytical techniques. I emphasize solutions that are to be used to build dictionary accurate for the task of text classification. Then, I compare supervised classification to automated unsupervised analysis’ effectiveness. These results reinforce the conclusion that a dictionary which has received good evaluation as a tool for classification should be subjected to review and modification procedures if is to be applied to new empirical material. Adaptation procedures used for analytical dictionary become, in my proposed approach, the basic step in the methodology of textual data analysis.
Źródło:
Przegląd Socjologii Jakościowej; 2014, 10, 2; 118-136
1733-8069
Pojawia się w:
Przegląd Socjologii Jakościowej
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Swarm algorithms for NLP : the case of limited training data
Autorzy:
Tambouratzis, George
Vassiliou, Marina
Powiązania:
https://bibliotekanauki.pl/articles/1396739.pdf
Data publikacji:
2019
Wydawca:
Społeczna Akademia Nauk w Łodzi. Polskie Towarzystwo Sieci Neuronowych
Tematy:
particle swarm optimisation
natural language processing
text phrasing
machine translation
Opis:
The present article describes a novel phrasing model which can be used for segmenting sentences of unconstrained text into syntactically-defined phrases. This model is based on the notion of attraction and repulsion forces between adjacent words. Each of these forces is weighed appropriately by system parameters, the values of which are optimised via particle swarm optimisation. This approach is designed to be language-independent and is tested here for different languages. The phrasing model’s performance is assessed per se, by calculating the segmentation accuracy against a golden segmentation. Operational testing also involves integrating the model to a phrase-based Machine Translation (MT) system and measuring the translation quality when the phrasing model is used to segment input text into phrases. Experiments show that the performance of this approach is comparable to other leading segmentation methods and that it exceeds that of baseline systems.
Źródło:
Journal of Artificial Intelligence and Soft Computing Research; 2019, 9, 3; 219-234
2083-2567
2449-6499
Pojawia się w:
Journal of Artificial Intelligence and Soft Computing Research
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Automatic Building of a Semantic Model of Disease Symptoms Based on Text Corpus
Automatyczna budowa semantycznego modelu objawów chorobowych na bazie korpusu słownego
Autorzy:
Szostek, G.
Jaszuk, M.
Walczak, A.
Powiązania:
https://bibliotekanauki.pl/articles/305881.pdf
Data publikacji:
2014
Wydawca:
Wojskowa Akademia Techniczna im. Jarosława Dąbrowskiego
Tematy:
semantic network
ontology
natural language processing
sieć semantyczna
ontologia
przetwarzanie języka naturalnego
Opis:
The research described in the article refers to the study of data from the domain of medicine. The diagnostic test results are recorded in different ways. They may take the form of tables, graphs or images. Regardless of the original data format, it is possible to draw up their verbal description, which focuses on the description of the observed symptoms. Such descriptions make up the text corpora concerning individual diagnostic technologies. Knowledge on disease entities is stored in a similar manner. It has the form of text corpora, which contain descriptions of symptoms specific to individual diseases. By using natural language processing tools semantic models can be automatically extracted from the texts to describe particular diagnostic technologies and diseases. One of the obstacles is the fact that medical knowledge can be written in a natural language in many ways. The application of the semantic format allows the elimination of record ambiguities. Ultimately, we get a unified model of medical knowledge, both from the results of diagnostic technologies describing the state of the patient and knowledge of disease entities. This gives the possibility of merging data from different sources (heterogeneous data) to a homogeneous form. The article presents a method of generating a semantic model of medical knowledge, using lexical analysis of text corpora.
Opisane w artykule badania dotyczą danych z dziedziny medycyny. Wyniki badań diagnostycznych rejestrowane są na różne sposoby. Mogą mieć postać tabel, wykresów, obrazów. Niezależnie od oryginalnego formatu danych możliwe jest sporządzenie ich opisu słownego, który koncentruje się na opisie zaobserwowanych objawów chorobowych. Opisy takie tworzą korpusy słowne dotyczące poszczególnych technologii diagnostycznych. W podobny sposób zapisywana jest wiedza dotycząca jednostek chorobowych. Ma ona postać korpusów tekstowych, w których zawarte są opisy objawów specyficznych dla poszczególnych schorzeń. Posługując się narzędziami przetwarzania języka naturalnego, możliwe jest automatyczne wydobycie z tekstów modeli semantycznych opisujących poszczególne technologie diagnostyczne oraz choroby. Pewne utrudnienie stanowi fakt, że wiedza medyczna może zostać zapisana w języku naturalnym na wiele sposobów. Zastosowanie formatu semantycznego pozwala wyeliminować te niejednoznaczności zapisu. W konsekwencji dostajemy ujednolicony model wiedzy medycznej, zarówno od strony wyników technologii diagnostycznych opisujących stan pacjenta, jak i wiedzy dotyczącej jednostek chorobowych. Daje to możliwość dokonania fuzji danych pochodzących z różnych źródeł (danych heterogenicznych) do postaci homogenicznej. Artykuł przedstawia metodę generowania modelu semantycznego wiedzy medycznej wykorzystującą analizy leksykalne korpusów słownych.
Źródło:
Biuletyn Instytutu Systemów Informatycznych; 2014, 14; 25-34
1508-4183
Pojawia się w:
Biuletyn Instytutu Systemów Informatycznych
Dostawca treści:
Biblioteka Nauki
Artykuł
Tytuł:
Automatyczna budowa semantycznego modelu objawów chorobowych na bazie korpusu słownego
Automatic construction of a semantic model of disease symptoms based on text corpus
Autorzy:
Szostek, G.
Jaszuk, M.
Walczak, A.
Powiązania:
https://bibliotekanauki.pl/articles/305941.pdf
Data publikacji:
2012
Wydawca:
Wojskowa Akademia Techniczna im. Jarosława Dąbrowskiego
Tematy:
sieć semantyczna
ontologia
przetwarzanie języka naturalnego
semantic network
ontology
natural language processing
Opis:
Opisane w artykule badania dotyczą danych z dziedziny medycyny. Wyniki badań diagnostycznych rejestrowane są na różne sposoby. Mogą mieć postać tabel, wykresów, obrazów. Niezależnie od oryginalnego formatu danych możliwe jest sporządzenie ich opisu słownego, który koncentruje się na opisie zaobserwowanych objawów chorobowych. Opisy takie tworzą korpusy słowne dotyczące poszczególnych technologii diagnostycznych. W podobny sposób zapisywana jest wiedza dotycząca jednostek chorobowych. Ma ona postać korpusów tekstowych, w których zawarte są opisy objawów specyficznych dla poszczególnych schorzeń. Za pomocą narzędzi przetwarzania języka naturalnego możliwe jest automatyczne wydobycie z tekstów modeli semantycznych, opisujących poszczególne technologie diagnostyczne oraz choroby. Pewne utrudnienie stanowi fakt, że wiedza medyczna może zostać zapisana w języku naturalnym na wiele sposobów. Zastosowanie formatu semantycznego pozwala wyeliminować te niejednoznaczności zapisu. W konsekwencji dostajemy ujednolicony model wiedzy medycznej, zarówno od strony wyników technologii diagnostycznych opisujących stan pacjenta, jak i wiedzy dotyczącej jednostek chorobowych. Daje to możliwość dokonania fuzji danych pochodzących z różnych źródeł (danych heterogenicznych) do postaci homogenicznej. Artykuł przedstawia metodę generowania modelu semantycznego wiedzy medycznej, wykorzystującą analizy leksykalne korpusów słownych.
The research described in article refers the medical data. Descriptions of diagnostic technologies results and descriptions of diseases form the text corpus. The corpus is the basis for building a semantic model of symptoms. A specific symptom can be written in the natural language in many ways, which is a problem for further processing of such information. There is a need to record symptoms in a uniform format. Such format allows for application of the same methods and mathematical tools to support the process of diagnosis. The paper presents method of generating a semantic model based on text corpus. Construction of the model is a part of the research, which aims to make the fusion of data from different sources (heterogeneous data) into homogeneous form.
Źródło:
Biuletyn Instytutu Systemów Informatycznych; 2012, 9; 35-43
1508-4183
Pojawia się w:
Biuletyn Instytutu Systemów Informatycznych
Dostawca treści:
Biblioteka Nauki
Artykuł

Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies