„Śmieci na wejściu, śmieci na wyjściu”. Wpływ jakości koderów na działanie sieci neuronowej klasyfikującej wypowiedzi w mediach społecznościowych „Garbage in, Garbage out”. The Impact of Coders’ Quality on the Neural Network Classifying Text on Social Media
Jedna z głównych decyzji przy ręcznym kodowaniu danych tekstowych dotyczy tego,
czy kodowanie ma być weryfikowane. W przypadku modeli nadzorowanych prowadzi to
do istotnego dylematu: czy lepszym rozwiązaniem jest dostarczenie modelowi dużej liczby
przypadków, na których będzie się uczyć kosztem weryfikacji poprawności danych, czy też
zakodowanie każdego przypadku n-razy, co pozwoli porównać kody i sprawdzić ich poprawność, ale jednocześnie n-krotnie zmniejszy zbiór danych treningowych. Taka decyzja
może zaważyć nie tylko na ostatecznych wynikach klasyfikatora. Z punktu widzenia badaczy jest istotna również dlatego, że – realistycznie zakładając, że badania mają ograniczone
źródło finansowania – nie można jej cofnąć. Wykorzystując 100 tys. unikatowych i ręcznie
zakodowanych tweetów przeprowadzono symulacje wyników klasyfikatora w zależności
od kontrolowanego odsetka błędnie zakodowanych dokumentów. Na podstawie danych
przedstawiono rekomendacje.
One of the critical decisions when manually coding text data is whether to verify the
coders’ work. In the case of supervised models, this leads to a significant dilemma: is
it better to provide the model with a large number of cases on which it will learn at the
expense of verifying the correctness of the data, or whether it is better to code each case
n-times, which will allow to compare the codes and check their correctness but at the
same time will reduce the training dataset by n-fold. Such a decision not only affect the
final results of the classifier. From the researchers’ point of view, it is also crucial because, realistically assuming that research has limited funding, it cannot be undone. The study uses a simulation approach and provides conclusions and recommendations based on 100,000 unique and hand-coded tweets.
Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies
Informacja
SZANOWNI CZYTELNICY!
UPRZEJMIE INFORMUJEMY, ŻE BIBLIOTEKA FUNKCJONUJE W NASTĘPUJĄCYCH GODZINACH:
Wypożyczalnia i Czytelnia Główna: poniedziałek – piątek od 9.00 do 19.00