Uczenie wielowarstwowych szerokich sieci neuronowych z funkcjami aktywacji typu ReLu w zadaniach klasyfikacji Teaching multilayer wide neural networks with ReLU activation function in the classification tasks
W artykule przedstawiono obecnie nowy kierunek rozwoju Sztucznych Sieci Neuronowych
w zadaniach aproksymacji i klasyfikacji. W praktyce stosowano sieci o jednej,
maksimum dwóch warstwach ukrytych oraz funkcjach aktywacji typu sigmoid lub tanh.
Funkcje te charakteryzują się małą zmiennością wartości dla większych wartości
zmiennej wejściowej (występują obszary nasycenia) . Konsekwencją tego jest bardzo
mała wartość pochodnej funkcji celu, która jest obliczana w algorytmie uczenia typu
wstecznej propagacji błędu. W warstwach oddalonych od wyjścia sieci, algorytm operuje
wartościami małymi, bliskimi zero, co powoduje, że algorytm jest bardzo wolno
zbieżny. W sieciach o wielu warstwach ukrytych (10-15, a nawet więcej), stosuje się
odcinkowe funkcje aktywacji pomimo ich formalno – matematycznych niedoskonałości.
Stosując metody numeryczne w obliczeniu pochodnej, można ten problem rozwiązać,
a tym samych poprawnie obliczyć pochodną funkcji aktywacji. Powyższe pozwala na
obliczenie gradientu funkcji celu dla warstw głębokich uzyskując jednocześnie zadawalającą
szybkość zbieżności.
In the article, a new way of artificial neural network development in the classification
task is introduced. In the past, neural networks with two or maximum three hidden layers
were used. The sigmoid or tanh activation functions were implemented as well. These
functions have very interesting properties that are very useful in the learning algorithms.
Unfortunately, they have a saturation area for the small and big argument’s value. As a
consequence, if the derivatives are calculated in every hidden layer, they values are very
small, near zero. It has a very negative impact on the property of the learning algorithm.
In this area, an algorithm is working very slowly. Two factors now have big impact on
the neural network development: big databases and power microprocessors. Therefore, a
deep neural network with many hidden layers could be used in practice tasks. To improve
the gradient calculation a new activation function, ReLU, is used. In the article,
the properties of these neural networks are studied. It is the first step to building more
powerful networks that are known as Convolutional Neural Networks.
Ta witryna wykorzystuje pliki cookies do przechowywania informacji na Twoim komputerze. Pliki cookies stosujemy w celu świadczenia usług na najwyższym poziomie, w tym w sposób dostosowany do indywidualnych potrzeb. Korzystanie z witryny bez zmiany ustawień dotyczących cookies oznacza, że będą one zamieszczane w Twoim komputerze. W każdym momencie możesz dokonać zmiany ustawień dotyczących cookies
Informacja
SZANOWNI CZYTELNICY!
UPRZEJMIE INFORMUJEMY, ŻE BIBLIOTEKA FUNKCJONUJE W NASTĘPUJĄCYCH GODZINACH:
Wypożyczalnia i Czytelnia Główna: poniedziałek – piątek od 9.00 do 19.00