Nowe podejście OpenAI do jednorazowego uczenia się imitacji, rzut oka na przyszłość sztucznej inteligencji

One-Shot Imitation Learning Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

16 maja badacze OpenAI udostępnili film wideo z jednego ze swoich projektów wraz z dwoma ważnymi artykułami eksplorującymi rozwiązania trzech kluczowych wąskich gardeł obecnego rozwoju sztucznej inteligencji: meta-uczenia się, jednorazowego uczenia się i automatycznego generowania danych. W poprzednim poście obiecałem artykuł poświęcony fascynującemu problemowi uczenia się za jednym razem, więc proszę bardzo. Możesz zacząć od obejrzenia opublikowanego przez nich filmu, który wyjaśnia ich niesamowitą pracę:

W tym filmie widzisz jednorękiego fizycznego robota układającego kostki jeden na drugim. Znając złożone zadania, które roboty przemysłowe są obecnie w stanie wykonać, gdyby badacz nie próbował wyjaśnić, co się dzieje, pod wieloma względami byłoby to bardzo rozczarowujące. W kontrolowanym środowisku zadanie jest proste, podejście proceduralne (na stałe) rozwiązało już te problemy, obiecujące i rewolucyjne jest to, na ile ogólne ramy pod spodem mogą skalować się do wielu, bardziej złożonych i adaptacyjnych zachowań w głośniejszych środowiskach.

Różnica w umyśle między człowiekiem a wyższymi zwierzętami, jakkolwiek wielka, z pewnością jest różnicą stopnia i nie jest rodzaju.
- Karol Darwin

Przez analogię ten artykuł jest mocnym dowodem na to, że różnice w systemach poznawczych między obecną ucieleśnioną sztuczną inteligencją (sztuczną inteligencją systemów fizycznych) a robotami XXI wieku będą skali i nie będą miały charakteru rodzajowego. Od 2012 r. Konkurs ImageNet *, badania w zakresie głębokiego uczenia się rozwijają się nie tyle, aby zmodyfikować charakter obliczeń rozproszonych wykonywanych przez sieć neuronową, ale poprzez znalezienie nowych sposobów strukturyzacji sieci w celu nauczenia się określonego zadania. Ponieważ funkcją sieci neuronowej jest struktura, struktura ta nie jest zakodowana na stałe (nie jest projektowana ręcznie), ale wyniki atomowych jednostek obliczeniowych wstępnie połączonych między wejściami i wyjściami mogą modyfikować ich strukturę i połączenia. To poprzez modyfikację ogólnej struktury sieci uczy się określonej funkcji.

W tym artykule zbudowano ogólną strukturę, która jest w stanie wyszkolić agenta w zakresie abstrakcyjnego reprezentowania zadań i nauczyć się przenosić tę wiedzę do nowych niewidocznych zadań (nauka transferu) po tylko jednym zademonstrowaniu nowego zadania (nauka jednego strzału).

Zadania

Chociaż dokładna implementacja architektoniczna różni się, biorą dwa zadania za przykłady, aby pokazać skuteczność ogólnego podejścia.

Dotarcie cząstek

W pierwszym przykładzie system odbiera dane wejściowe kolorowych pozycji docelowych na płaszczyźnie i pojedynczą demonstrację wideo symulowanego agenta zmierzającego do określonego celu.

Rysunek 2. Robot to masa punktowa kontrolowana siłą 2-wymiarową. Rodzina zadań polega na osiągnięciu docelowego punktu orientacyjnego. Tożsamość punktu orientacyjnego różni się w zależności od zadania, a model musi ustalić, który cel należy realizować na podstawie demonstracji. (po lewej) ilustracja robota; (w środku) zadaniem jest dotarcie do pomarańczowego pola, (po prawej) zadaniem jest dotarcie do zielonego trójkąta.

Podczas treningu system musi odtworzyć to samo zadanie (osiągnąć pomarańczowy), ale z innej konfiguracji, z różnymi pozycjami początkowymi dla robota i celów. Nie jest jasne, czy podczas testowania agent jest testowany na zadaniu, na którym został przeszkolony (osiągnij kolor pomarańczowy), czy na zadaniu, którego nigdy wcześniej nie widział (na przykład osiągnij kolor zielony), czy na obu.

Wyszkolona polityka jest oceniana na podstawie nowych scenariuszy i uwarunkowana nowymi trajektoriami demonstracyjnymi niewidocznymi podczas szkolenia.

Pewne jest, że agent musi wywnioskować cel docelowy z unikalnej demonstracji i ponownie rozpocząć od innej konfiguracji. Oznacza to, że dokładnej sekwencji motorycznej nie można było się nauczyć przed testowaniem i należy ją wywnioskować poprzez abstrakcję (ustrukturyzowana reprezentacja wyższego poziomu) zadania i planowania motorycznego.

Blokowanie stosów

W drugim przykładzie agent musi nauczyć się układać kostki (oznaczone różnymi kolorami) w tej samej kolejności, jak ta pokazana na pojedynczej symulowanej demonstracji. Ta symulowana demonstracja to seria obrazów 2D wygenerowanych przez silnik fizyki 3D, w którym modelowane są właściwości silnika i aparatu sensorycznego robotów.

Polisa jednorazowa. Jedna polityka wyszkolona do rozwiązywania wielu zadań. Górne zadanie: {abc, def}, dolne zadanie: {ab, cd, ef}

W obu przykładach początkowe pozycje kostek w demonstracji i w prawdziwym teście są różne, każde zadanie zaczyna się od innej pozycji początkowej. Robot nie próbuje zastąpić kostek, aby dopasować je do początkowej pozycji demonstracji, przekazuje zadanie spiętrzenia kostki na wyższym poziomie, niezależnie od stanu, w którym zacznie.

Trening z wykorzystaniem randomizacji domen

W obu przypadkach wszystkie obrazy użyte podczas treningu są uzyskiwane za pomocą symulacji przy użyciu randomizacji domen, w której losują następujące aspekty próbek:

Liczba i kształt obiektów rozpraszających na stole Położenie i tekstura wszystkich obiektów na stole Tekstury stołu, podłogi, skybox i robota Pozycja, orientacja i pole widzenia kamery Liczba świateł na scenie Pozycja, orientacja, oraz specyficzne cechy świateł Rodzaj i ilość przypadkowych szumów dodawanych do zdjęć

Zestaw treningowy do osiągania cząstek

Rozważamy coraz trudniejszy zestaw rodzin zadań, w którym liczba punktów orientacyjnych wzrasta z 2 do 10. Dla każdej rodziny zadań zbieramy 10000 trajektorii na szkolenie, gdzie pozycje punktów orientacyjnych i pozycja początkowa robota punktowego są losowo dobierane. Używamy zakodowanych zasad ekspertów, aby skutecznie generować demonstracje. Dodajemy hałas do trajektorii, zakłócając obliczone działania przed zastosowaniem ich w środowisku i używamy prostego klonowania behawioralnego do szkolenia zasad sieci neuronowej

Zestaw treningowy do układania bloków

Konkretnie zbieramy 140 zadań szkoleniowych i 43 zadania testowe, każde z innym pożądanym układem bloków. Liczba bloków w każdym zadaniu może wynosić od 2 do 10. Zbieramy 1000 trajektorii na zadanie do celów szkoleniowych i utrzymujemy osobny zestaw trajektorii i konfiguracji początkowych do wykorzystania w ocenie. Podobnie jak w przypadku zadania dotarcia cząstek, wstrzykujemy hałas do procesu zbierania trajektorii. Trajektorie są gromadzone przy użyciu zakodowanych zasad.

Udane demonstracje są gromadzone przy użyciu zakodowanych zasad

Zauważ, że podczas uczenia się prawidłowe trajektorie są generowane przez „sztywno zakodowane” zasady proceduralne, które moim zdaniem opierają się na klasycznych technikach identyfikacji i kontroli systemu. Tak więc podczas szkolenia i testowania agent ma dwa dane wejściowe: a) demonstrację w konfiguracji A ib) konfigurację początkową B. Tylko podczas szkolenia algorytm uczenia ma również dostęp do idealnej odpowiedzi: trajektoria rozpoczynająca się od konfiguracji B, która odpowiada na problem, z którym odpowiedź agenta zostanie porównana podczas uczenia się - co czyni go nadzorowanym problemem uczenia się.

Dla każdego zadania szkoleniowego zakładamy dostępność zestawu udanych demonstracji.

Jeśli nie jest to jasne, omówię różnice między różnymi typami paradygmatów uczenia się w następnej części.

Algorytm optymalizacji i funkcja strat

Uczenie nadzorowane odnosi się do paradygmatów szkoleniowych, w których przy każdej decyzji sieć ma dostęp do właściwego wyboru, który powinien był podjąć, a zatem do pojęcia błędu. Na przykład w zadaniu klasyfikacji psów i kotów etykieta obrazów psów i kotów podczas treningu jest znana z góry, a błędy są natychmiast wykrywane. W tym sensie różni się od nauki bez nadzoru, gdzie generalnie agent jest proszony o znalezienie nieznanej wcześniej struktury w wejściach, które otrzymuje, i bez etykiet kotów i psów musiałby odkryć, że istnieją dwa skupiska różnych obiektów oparte wyłącznie na informacje zawarte w danych. Różni się także od uczenia się przez wzmocnienie, że często stosuje się do systemu czasu rzeczywistego, w którym dokładna sekwencja decyzji prowadzącej do celu jest nieznana, ale tylko ostateczna „nagroda” decyduje o tym, czy sekwencja była poprawna, czy nie. Za pomocą uczenia się imitacji przekształcają klasyczny problem uczenia się wzmacniającego w problem uczenia się nadzorowanego, w którym błąd jest obliczany z odległości do obserwowanej trajektorii.

Podobnie jak w przypadku każdego nadzorowanego zestawu treningowego, dane zadanie jest całkowicie zdefiniowane przez funkcję straty, która ma na celu oszacowanie, jak daleko agent był od zamierzonego zachowania. Zdefiniowanie tej funkcji jest często krokiem krytycznym, ponieważ określa, w jaki sposób algorytmy optymalizacyjne aktualizują parametry modelu. Algorytmy te są ważne z punktu widzenia czasu obliczeń i często wymagają pewnych udoskonaleń, aby w ogóle były zbieżne. Rzeczywiście, rozwiązania, które zminimalizują funkcję w bardzo dużym wymiarze, znajdują się w bardzo małej skorupie przestrzeni parametrów, z niewielką odległością między nimi, gdy tylko odejdziesz od tej małej domeny, odległość między rozwiązaniami szybko rośnie. Jest wiele bardzo interesujących prac na ten temat, wykonanych między innymi przez niesamowitą Jennifer Chayes, która porusza ten temat w bardzo interesującym wywiadzie na temat ostatniego odcinka Talking Machines.

Podczas szkolenia sieci polityk (cała sieć, która może zdecydować na podstawie danych wejściowych, jakie działanie podjąć), najpierw przetwarzają udaną trajektorię demonstracyjną. W tej części będą porównywać dwa podejścia, klasyczne klonowanie behawioralne (nie do końca pewni zastosowanej implementacji) i algorytmy DAGGER. Pozwoli to na iteracyjne zminimalizowanie funkcji utraty przez stratę 12 lub utratę przez entropię krzyżową w oparciu o to, czy działania są ciągłe czy dyskretne (w oparciu o rozkłady zdarzeń w sekwencji). We wszystkich eksperymentach korzystali z algorytmu Adamax, aby przeprowadzić optymalizację z szybkością uczenia 0,001.

Rozmiar kroku zaczyna się od małego i maleje wykładniczo.

Algorytm sam w sobie nie pozwala na transfer, to w jaki sposób budujesz swój zestaw treningowy, a funkcja straty pozwala na transfer.

W zadaniach istnieją dwa rodzaje transferu. Pierwszy rodzaj jest określany jako „wypełnianie luki w rzeczywistości”, jest to uogólnienie w nauce, pozwalające na przejście między treningiem na symulowanych danych wejściowych do testowania na naturalnych bodźcach. Dane symulacyjne są często zubożałym przybliżeniem realnego świata, zbyt doskonałym, pozbawionym złożoności rzeczywistego obiektu. W prawdziwym świecie kamera może być wadliwa i głośniejsza, sterowanie silnikiem będzie mniej precyzyjne, kolory się zmienią, tekstury będą bogatsze itp. Aby umożliwić ten pierwszy transfer, używają metody, którą nazywają „losową domeną” : poprzez dodanie szumu do danych wejściowych sieć może nauczyć się wspólnej odpowiedniej struktury, która pozwoli jej odpowiednio uogólnić na rzeczywisty świat. Na przykład zmienią kąt kamery między przykładami treningu, zmienią tekstury lub sprawią, że trajektorie będą mniej idealne. Dodając hałas podczas treningu dodajemy solidności.

Drugim testowanym tutaj transferem jest zdolność do wytworzenia odpowiedniej sekwencji silnika we wcześniej niewidzialnym zestawie konfiguracji i celu, w oparciu o pojedynczą demonstrację rozpoczynającą się w innej konfiguracji początkowej, ale z podobnym ostatecznym celem. Ponownie tutaj przeniesienie będzie możliwe dzięki konstruowaniu zestawu treningowego i modelowaniu funkcji straty. Prezentując podczas szkolenia demonstracje, które nie zaczynają się od tego samego stanu początkowego, aby osiągnąć podobny cel, pozwalasz sieci nauczyć się osadzać reprezentację celu na wyższym poziomie bez użycia pozycji bezwzględnych, a także reprezentację wyższego rzędu sekwencja motoryczna, która nie jest prostą imitacją. Naiwna architektura początkowa umożliwia treningowi modyfikowanie struktury w odpowiedni sposób, a ta wyuczona struktura implikuje ostateczną funkcję.

Cele

W przypadku paradygmatu układania bloków mieli oni szereg ograniczeń, których spełnienia wymagał ich agent szkoleniowy.

Powinno być łatwe do zastosowania do instancji zadań, które mają różną liczbę bloków.
Powinno to naturalnie uogólniać na różne kombinacje tego samego zadania. Na przykład, zasady powinny dobrze działać na zadaniu {dcba}, nawet jeśli są szkolone tylko na zadaniu {abcd}.
Powinien uwzględniać pokazy o różnych długościach.

Mieli kilka pytań, na które chcieli odpowiedzieć w związku z tym zadaniem.

Jak trening z klonowaniem behawioralnym wypada w porównaniu z DAGGER, biorąc pod uwagę, że wystarczającą ilość danych można zebrać offline?
Jak warunkowanie w całej demonstracji różni się od warunkowania w końcowej pożądanej konfiguracji, nawet jeśli końcowa konfiguracja ma wystarczającą ilość informacji, aby w pełni określić zadanie?
Jak warunkowanie w całej demonstracji wypada w porównaniu z warunkowaniem na „migawce” trajektorii, która jest małym podzbiorem ramek, które są najbardziej pouczające
Czy nasz system może z powodzeniem uogólniać na rodzaje zadań, których nigdy nie widział podczas szkolenia? (++)
Jakie są obecne ograniczenia metody?

Architektura

Zasięg cząstek

W tym pierwszym przykładzie porównali trzy architektury oparte na sieciach neuronowych Long Short Term Memory (LSTM). Opis tych sieci zostanie zamieszczony w przyszłym poście na temat pamięci i uwagi, które są absolutnie fascynującymi przedmiotami zarówno w naukach kognitywnych, jak i obliczeniowych. Zasadniczo LSTM zasila poprzednie wyjścia sieciowe (w czasie) jako część wejścia sieci w każdym nowym punkcie czasowym, pozwalając na informowanie przeszłych stanów o teraźniejszości (stąd ich nazwa sieci pamięci krótkoterminowej). Są one źródłem wielu najnowocześniejszych technologii dotyczących szeregów czasowych (Alexa, Siri itp.).

Tutaj wykorzystują te trzy szczególne warunki:

  1. Zwykły LSTM: uczy się osadzać trajektorię i aktualny stan, aby podawać ją do wielowarstwowego perceptronu, który wytworzy ruch motoryczny
  2. LSTM z uwagą: tworzy ważoną reprezentację punktów orientacyjnych trajektorii
  3. Stan końcowy z uwagą: użyj w treningu tylko stanu końcowego, aby uzyskać ważenie punktów orientacyjnych, podobnie jak w poprzedniej architekturze

Blokowanie stosów

Chociaż w zasadzie ogólna sieć neuronowa może nauczyć się mapowania od demonstracji i bieżącej obserwacji do odpowiednich działań, uznaliśmy za istotne zastosowanie odpowiedniej architektury. Nasza architektura uczenia się układania bloków jest jednym z głównych wkładów tego artykułu i uważamy, że jest reprezentatywna dla tego, jak w przyszłości mogłyby wyglądać architektury uczenia się w trybie imitującym bardziej złożone zadania.

Moduły uwagi

Artykuł pozostaje na stosunkowo wysokim poziomie w opisie struktury sieci wykorzystywanych do nauki zadania. Kluczowym składnikiem architektury jest moduł uwagi, ale uważam, że ten temat potrzebuje konkretnego postu, który szczegółowo opisuje jego istotną rolę. Przez analogię do kognitywistycznej koncepcji ciągłej uwagi moduły uwagi służą do przechowywania i skupiania się na odpowiednich informacjach zawartych w różnych przestrzeniach i czasie. Tworzy wyjście o stałej wielkości, które zawiera osadzenie treści informacyjnej rozciągniętej w czasie i przestrzeni. Przez analogię do topologii, gałęzi matematyki, która moim zdaniem w znacznym stopniu wpłynie na to, jak rozumiemy rozproszone reprezentacje w przyszłości, sieć uwagi wykonuje topologiczny izomorfizm informacji, tę samą krzywiznę, inny kształt. Zauważ, że te sieci nie pełnią roli detektora istotności, który może skupić się na nieoczekiwanych lub rzadkich zdarzeniach, co jest funkcją związaną z pojęciem uwagi w neuronauce.

W tym przypadku wykorzystują dwa rodzaje sieci uwagi: a) sieć uwagi czasowej, która wytwarza ważoną sumę nad zawartością (wektory, kontekst i pamięć) przechowywaną w pamięci, oraz b) sieć uwagi sąsiedztwa, która jest w stanie odzyskać informacje dotyczące bloku pozycje w zależności od bieżącego zapytania agenta.

Sieć uwagi czasowej, z c: wektorem kontekstowym, m: wektorem pamięci, q: wektorem zapytania, v: wagą wyuczonego wektora. Dane wyjściowe są tego samego rozmiaru co wektor pamięci. Jest to liniowa kombinacja tych wektorów, która pozwala niektórym wektorom pamięci wywierać większy wpływ na dane wyjściowe w oparciu o wektory kontekstowe i zapytania.Ten sam pomysł, konkurencja między informacjami przestrzennymi jest utrzymywana dynamicznie przez system uwagi.

Sieć polis

Cała sieć składa się z trzech różnych podsieci: sieci demonstracyjnej, sieci kontekstowej i sieci manipulacji.

Sieć demonstracyjna odbiera trajektorię demonstracyjną jako dane wejściowe i tworzy osadzenie demonstracji do wykorzystania przez strategię. Rozmiar tego osadzenia rośnie liniowo w zależności od długości demonstracji, a także liczby bloków w środowisku.

Jak pokazano tutaj, sieć demonstracyjna może osadzić demonstrację o różnym stopniu złożoności i wielkości we wspólnym formacie, który będzie używany przez sieć kontekstową do reprezentowania zadania. Prawdopodobnie już na tym poziomie występuje uogólnienie, osadzanie demonstracji powinno pomijać informacje o dokładnej trajektorii i pozycjach bezwzględnych sześcianu widocznych podczas demonstracji.

Patrząc na strukturę sieci kontekstowej, chociaż z bardzo wysokiego poziomu, widzimy interfejs z siecią demonstracyjną zasilającą osadzanie demonstracji w centralnych modułach uwagi czasowej. Widzimy również, że poprzednie działania (LSTM) i bieżący stan są podawane jako dane wejściowe połączone z osadzaniem demonstracji w celu utworzenia globalnego osadzania kontekstu wysyłanego do sieci silnikowej.

Ich opis funkcji sieci jest moim zdaniem najważniejszą częścią artykułu:

Sieć kontekstowa rozpoczyna się od obliczenia wektora zapytania jako funkcji bieżącego stanu, który jest następnie wykorzystywany do uczestniczenia w różnych etapach czasowych osadzania demonstracji. Wagi uwagi na różnych blokach w tym samym kroku czasowym są sumowane, aby uzyskać pojedynczy ciężar na krok czasu. Wynikiem tej uwagi czasowej jest wektor, którego rozmiar jest proporcjonalny do liczby bloków w środowisku. Następnie zwracamy uwagę otoczenia, aby rozpowszechniać informacje w osadzeniach każdego bloku. Proces ten powtarza się wiele razy, gdy stan jest zaawansowany przy użyciu komórki LSTM z niewiązanymi wagami.
Poprzednia sekwencja operacji powoduje osadzenie, którego rozmiar jest niezależny od długości demonstracji, ale nadal zależy od liczby bloków. Następnie przykładamy standardową miękką uwagę do tworzenia wektorów o stałych wymiarach, w których zawartość pamięci składa się tylko z pozycji każdego bloku, który wraz ze stanem robota tworzy dane wejściowe przekazywane do sieci manipulacji.
Intuicyjnie, chociaż liczba obiektów w środowisku może się różnić, na każdym etapie operacji manipulacji liczba odpowiednich obiektów jest niewielka i zwykle stała. W szczególności w środowisku układania bloków robot powinien jedynie zwracać uwagę na położenie bloku, który próbuje podnieść (blok źródłowy), a także na pozycję bloku, który próbuje umieścić na ( blok docelowy). Dlatego odpowiednio przeszkolona sieć może nauczyć się dopasowywać bieżący stan do odpowiedniego etapu demonstracji oraz wnioskować o tożsamości bloków źródłowych i docelowych wyrażonych jako wagi miękkiej uwagi na różnych blokach, które są następnie wykorzystywane do wyodrębnienia odpowiednich pozycji w celu zostać przekazane do sieci manipulacji.

Sposób, w jaki kończą opis, jest doskonałym przykładem obecnego dryfu badań nad sztuczną inteligencją od podejścia systemowego do podejścia opartego na systemie uczenia się, a także wskazuje na dyskusję dotyczącą rozwoju mózgu poniżej.

Chociaż nie egzekwujemy tej interpretacji podczas szkolenia, nasza analiza eksperymentu potwierdza tę interpretację tego, jak wyuczona polityka działa wewnętrznie.

Nie wiedzą, jak to działa! Budują strukturę zdolną do wykonywania określonych obliczeń i do przechowywania pewnych informacji, które naszym zdaniem są a priori przydatne, i dostarczają jej zestaw szkoleniowy, mając nadzieję, że cała struktura się nauczy! Powstaje rodzaj voodoo z zakresu badań nad sztuczną inteligencją, sztuka, sposób kierowania poszukiwań heurystycznych we właściwym kierunku. I wygląda na to, że wielu magików pracuje teraz dla openAI.

Ich własnymi słowami sieć manipulacji jest najprostszą strukturą, z osadzania kontekstu dostarczanego do wielowarstwowego perceptronu wywoływana jest akcja motoryczna.

Wyniki

Wyniki są często częścią, która mnie nie interesuje, szczególnie w przypadku tego rodzaju niesamowicie genialnych dokumentów technicznych. Pójdę szybko, najważniejsze jest to, że to podejście działa, działa z dokładnością podobną do zakodowanej polityki eksperckiej i, w przeciwieństwie do tego szczególnego podejścia proceduralnego, jest możliwe do uogólnienia na wiele różnych zadań.

Zasięg cząstek

Block Stacking

W tych eksperymentach przetestowano także różne warunki. Używając DAGGERA, porównali trzy różne warunki wejściowe, próbkując w dół zademonstrowaną trajektorię: pełne trajektorie, migawkę trajektorii lub tylko używając stanu końcowego. Porównali również algorytm klonowania behawioralnego z pełną trajektorią demonstracji.

Mocny dowód na zdolność systemu do uogólnienia na podstawie tożsamości kostki

Dyskusja

Czytając szybkie postępy osiągnięte przez OpenAI w ciągu ostatnich miesięcy, odczuwam rosnącą potrzebę rozmawiania o ich pracy i dzielenia się przemyśleniami na temat tego, w co wierzę, ich praca oraz postępy w dziedzinie AI jako całości, informują o naszym zrozumieniu, w jaki sposób mózg biologiczny działa. W szczególności ta rosnąca idea, że ​​pozornie wspólne funkcje poznawcze między ludźmi nie są tak bardzo wynikiem wspólnej struktury, która z natury wie, jak wykonać zadanie, ale jest wynikiem stosunkowo podobnych naiwnych struktur, które w konfrontacji z tym samym środowiskiem, nauczyć się wykonywać podobne zadania. Funkcja będąca wynikiem struktury bezfunkcyjnej, która jest w stanie nauczyć się określonego zadania tylko ze względu na określone środowisko, a nie struktury, która jest w stanie wykonać zadanie natywnie, po prostu dostosowując kilka parametrów w celu dostosowania do środowiska.

Zadania a konfiguracje: pozornie arbitralna definicja

Muszę przyznać, że nie rozumiem, dlaczego zdecydowali się rozmawiać o różnych zadaniach w ten sam sposób. Zadanie jest zdefiniowane w eksperymencie układania bloków jako zestaw ciągów znaków reprezentujących pozycję bloków względem siebie, liczba elementów w zestawie określa liczbę stosów, a liczba znaków liczbę bloków, które należy ułożyć . Zadaniem jest zatem układanie bloków w stosy, niezależnie od absolutnej pozycji stosu.

Niektóre bloki mogą znajdować się na stole, ale nie są częścią zadania

Ich wybór określenia względnej pozycji i liczby stosów jako kryteriów dla oddzielnego zadania wydaje się arbitralny. Rzeczywiście, sensowne może być również mówienie o różnych zadaniach w oparciu o bezwzględne pozycje początkowe bloków (które nazywają konfiguracją). Wierzę, że wspólny charakter problemu jest dla nich oczywisty, ale dla celów przejrzystości wolą nie wchodzić w szczegóły. Bardziej sensowne jest ujęcie uczenia się polityki jako dwóch rodzajów uogólnień, tak jak później:

Należy zauważyć, że uogólnienie jest oceniane na wielu poziomach: wyuczona polityka musi nie tylko uogólniać na nowe konfiguracje i nowe demonstracje już widocznych zadań, ale także musi uogólniać na nowe zadania.

Po prostu zamień „zadania” na „porządki stosów”. Prawidłowe nauczenie się zadania oznacza, że ​​agent uczy się osadzania zdolnego do wyodrębnienia położenia kostek (konfiguracji), ale także ich tożsamości (zadania), liczby stosów (zadania) i trajektorii demonstracji (krótko wprowadzonej w cytat), aby uzyskać odpowiednią odpowiedź motoryczną.

Te uogólnienia wydają się sprzeczne, w jaki sposób ta sama sieć może wyodrębnić początkową konfigurację kostki lub ich tożsamość, a jednocześnie odzyskać absolutną pozycję odpowiedzi motorycznej?

Wyjaśnia to potrzebę różnych współpracujących podsieci podczas uczenia się i otrzymywania różnych danych wejściowych oraz wyjaśnia, że ​​w sieci kontekstowej abstrakcyjna reprezentacja zadania jest dostarczana informacji o niższym rzędzie, takich jak pozycje bezwzględne kostek, przed poleceniem malejącym.

Możesz myśleć, że komentowanie tego rozróżnienia zadań i konfiguracji jest głupie, ale ważne jest, aby zrozumieć, że w istocie jest to ten sam proces abstrakcji podczas zabawy na różnych obiektach (i to otwiera się w następnej sekcji).

Nie ma nauki bez niezmienniczości

Uczenie się metodą transferu jest chyba najbardziej fascynującą koncepcją poznania, czy to in-silico czy in-vivo, jest bardzo gorącym tematem zarówno dla badaczy AI, jak i neurologów, i zdarza się, że jest to temat mojej pracy doktorskiej. Zwróć uwagę, że przed uczeniem maszynowym badano ściśle powiązane pojęcia w wielu dziedzinach, a to abstrakcyjne i zawsze częściowo zdefiniowane pojęcie ma wiele nazw. Filozofowie, antropologowie i socjolodzy mogą nazywać to (post-) strukturalizmem (Claude Levi-Strauss, Michel Foucault), językoznawca opowie o syntagmie i strukturach zagnieżdżonych drzew (Noam Chomsky), matematycy prawdopodobnie pomyślą o homeomorfizmie lub niezmiennikach oraz edukacji badacze lub neuronaukowcy mogą nazywać to uczeniem strukturalnym. Możesz również zobaczyć pokrewną koncepcję w dziedzinie uczenia maszynowego, taką jak uczenie się reprezentacji i meta-uczenie się, które w zależności od autora może odnosić się do uczenia się przeniesionego lub paradygmatu uczenia się wykorzystywanego do uczenia się przeniesionego. Mówiąc o głębokich sieciach neuronowych, różnice te są zatarte, ponieważ w istocie sieć neuronowa uczy się osadzać pewien problem (uczenie się reprezentacji) poprzez modyfikację jego struktury (meta-uczenie się) zwykle w hałaśliwym środowisku, co implikuje formę uczenia się transferowego.

Naukowcy zajmujący się sztuczną inteligencją i naukowcy kognitywni często mają bardzo konkretną definicję uczenia się transferowego, jest to proces, który pozwala systemowi wykorzystać wiedzę zdobytą w określonym zadaniu do wykonania innego zadania o wspólnej strukturze kompozycyjnej (jak opisano w artykule). Kognitywistyka ma pojęcie transferu bliskiego i dalekiego, w zależności od tego, jak dwa zadania wydają się różnić. Ale z bardziej abstrakcyjnej perspektywy, w hałaśliwym i złożonym środowisku, cała nauka jest formą uczenia się transferu, a różnica między transferem bardzo bliskim i bardzo dalekim jest tylko kwestią wspólnych informacji - znowu kwestia skali, a nie natury.

W kontrolowanym środowisku wcześniej podejmowane są wysiłki, aby zbudować dyskretną dyskretyzację rzeczywistości, ale w rzeczywistości dyskretyzacja ta odtwarza proceduralnie to, co robi uczenie się przez przeniesienie, jednoczy nieskończony zestaw stanów znalezionych w rzeczywistości w ramach wspólnej, zamkniętej struktury. W istocie Transfer Learning odnosi się bezpośrednio lub poprzez rozszerzenie do procesu, w którym agenci uczenia się używają niezmienników do budowania modeli świata. Jest to proces wykorzystujący podobieństwa, powtórzenia i ich warianty, aby stworzyć coraz bardziej abstrakcyjną i złożoną reprezentację, która będzie układać zespoły w całym zakresie wariancji przez dane wejściowe. W ogólnym sensie pozwala stworzyć podstawowe operacje, za pomocą których manipulujemy grupami informacji, podobnie jak w matematyce pozwala na zjednoczenie i przecięcia. Umożliwia tożsamość, wyjaśnia naszą zdolność do kategoryzowania obiektów. Josh Tenembaum podaje przykład, który naprawdę do mnie przemówił: wyobraź sobie, że uczysz dwuletnie dziecko rozpoznawania konia po raz pierwszy, pokazujesz mu kilka zdjęć różnych koni, a potem pokazujesz mu zdjęcie innego konia i zdjęcie domu i poproś go, aby powiedział ci, który jest koniem. Dziecko wykona to zadanie dość łatwo, ale wciąż jest to coś, czego komputer nie radzi sobie dobrze przy tak niewielkiej ilości danych wejściowych (jednorazowe uczenie się).

Jak to zrobiło dziecko?

Rozpoznawanie zwierząt zostało zbadane u dzieci i dotyczy naszej zdolności do rozkładania przedmiotów na odpowiednie części, zakresu kolorów futra, wielkości szyi, ogólnego kształtu itp. Ta umiejętność pozwala również na otwarcie drzwi nigdy wcześniej nie widziałeś, nauczyłeś się sekwencji ruchowej, która uogólnia się na każdą sytuację (uogólnienie domeny). Jest to również to, czego używasz do budowania objaśniających modeli, które upraszczają świat, początkowo możesz być zaskoczony nagłym pojawieniem się kukułki w słynnym szwajcarskim zegarze, ale po drugim pojawieniu się tego spodziewacie. Znalezienie niezmienniczości to sposób uczenia się sieci neuronowej, a modele te budowane są nieświadomie. Przykładem jest intuicyjne uczenie się fizyki, zanim jeszcze usłyszeli o matematyce i liczbach.

Można na przykład zapytać, jak szybko dziecko urodzone w mikrograwitacji przystosuje się do grawitacji Ziemi i intuicyjnie nauczy się, że przedmioty spadną na ziemię po upuszczeniu?

Możemy wysunąć hipotezę, że niemowlęta i większość zwierząt nieświadomie poprawi swój model, podobnie jak po założeniu skarpetek na łapach psa i dostosowanie się do nowych informacji zajmuje trochę czasu.

Ale dla małego dziecka nastąpi świadome przesłuchanie i rewizja jego intuicyjnego modelu, od ciekawości, poprzez język, symbole i przekonania. Nasza zdolność do świadomego przesłuchiwania i zmiany naszych modeli jest fascynująca i jako sidenot, ludzie mogą być jedynym gatunkiem zdolnym do werbalizacji tego procesu, ale inne gatunki mogą dokonywać podobnych świadomych zmian.

Niezmienność jest obowiązkową właściwością czasu, gdyby wszystko było zawsze nowe i w żaden sposób przewidywalne, pozostałaby ta unikalna niezmienność, że wszystko jest zawsze nowe i nieprzewidywalne. Nie można wyobrazić sobie świata bez niezmienności, ponieważ nie byłoby świata, do którego można by się odwoływać, bez niezmienności życie byłoby niemożliwe, a nasz mózg bezużyteczny. Życie jest maszyną, która działa tylko poprzez przewidywalne powtarzanie zdarzeń, powtarzanie przyczyn i skutków, cykliczne przywracanie energii do organizmu. A w dążeniu Life do poprawy wykorzystania tych niezbędnych cykli nasz mózg jest najlepszym narzędziem. Jest to maszyna predykcyjna, organ adaptacyjny, który potrafi dynamicznie znajdować powtórzenia i wykorzystywać je do lepszej interakcji ze światem.

Ta metoda, którą wybrało życie, jest wyjątkowo odporna na niewielkie zmiany w strukturze. To, co pozostaje niezmienne, to świat, statystyczne właściwości środowiska, ale napotykająca go struktura neuronowa może się różnić, o ile może zawierać odpowiednie informacje, które opracowała. To wyjaśnia, dlaczego nasze mózgi mogą być tak różne od poszczególnych osób, nawet pierwotnych kory, a jednak mają te same funkcje.

Układy nerwowe są adaptacyjne, nie potrzebują ewolucji i powolnych mutacji genetycznych, aby zmienić zachowanie w odpowiedni sposób. Prosty układ nerwowy, taki jak w C. Elegans, służy jako wrodzony wewnętrzny koordynator i czujnik zewnętrzny: wyczuj jedzenie i zbliż się do niego, uciekaj przed bólem, rozmnażaj się. Te proste systemy były początkowo sztywne i przeprowadzały ekstremalne przybliżenie naszego bardzo hałaśliwego świata, aby zdyskretyzować go w niewielkim zestawie możliwych stanów (jedzenie po lewej, ciepło poniżej itp.). Nasze zdolności motoryczne i sensoryczne ewoluowały ramię w ramię z naszymi predykcyjnymi zdolnościami układu nerwowego. Gdy nasze czujniki stały się bardziej precyzyjne, układ nerwowy powoli zaczął modyfikować swoją strukturę, aby przechowywać informacje i uczyć się z doświadczenia. Początkowo był w stanie nauczyć się rozpoznawać pewne kategorie danych wejściowych, takich jak rodzaje zapachów lub wzorców świetlnych, a także mógł uczyć się metodą prób i błędów, aby kontrolować swój coraz bardziej złożony układ motoryczny. Zauważ, że świat jest tak złożony, że nasz mózg naturalnie ewoluował w kierunku paradygmatu uczenia się, a nie wrodzonego podejścia proceduralnego. Pod względem obliczeniowym ma to sens, prosta gra Go ma przestrzeń stanu o wiele większą (2,10¹⁷⁰) niż liczba atomów we wszechświecie (10 as), a gdy organizmy stają się bardziej złożone, próbują na stałe zapisać przybliżenia wszystkich możliwych Stwierdza, że ​​może być szybko unieruchomiony z powodu wybuchu kombinatorycznego.

Niektórzy ludzie mogą wierzyć, że nasz mózg jest zbudowany w taki sposób, że z natury reprezentuje przestrzeń, w której będzie ewoluował, że w DNA gdzieś jest gen określający twarz lub czasowa organizacja fal dźwiękowych, które tworzą w górę słów. Mogą wierzyć, że ta wrodzona wiedza jest gdzieś zakodowana. Inni mogą wierzyć, jak mój nauczyciel filozofii, kiedy byłem w szkole średniej, że istnienie poprzedza esencję, a nasz mózg jest całkowicie i wyłącznie określony przez spotkanie organizmu i świata. Rzeczywistość jest oczywiście bardziej złożona i dla większości badanych do tej pory systemów telencefalicznych mózg nie koduje z natury funkcji, którą będzie pełnić, ale nauczy się go w zależności od informacji zawartych w jego danych wejściowych. Jeśli dane wejściowe są zbyt ubogie w odpowiednie informacje, zdolność uczenia się w tych strukturach może mieć datę ważności (np. Niedowidzenie). Ale jeśli wrodzona struktura nie koduje ostatecznej funkcji, mózg ma określoną strukturę. Struktura ta jest zachowana między osobnikami, a osobniki tego samego gatunku mają wspólne funkcje i popędy. DNA ustanawia pewną strukturę na miejscu, strukturę, która nie jest w stanie wykonywać swojej ostatecznej funkcji z natury, ale jest w stanie nauczyć się złożoności określonych zadań w oparciu o indywidualne doświadczenie. Nic dziwnego, że ewolucja doprowadziła do pojawienia się wysoce skutecznej bariery krew-mózg izolującej mózg od reszty ciała, a także opon mózgowych i twardej powłoki kości chroniącej go przed światem zewnętrznym, ponieważ w przeciwieństwie do innych narządów, w których struktura jest zakodowana w genomie, struktury wyszkolonego mózgu nie można zregenerować z modelu przechowywanego wewnętrznie. Fascynujące jest to, że widzimy te same mechanizmy uczenia się powstające przez analogię poprzez rozwój coraz bardziej złożonych głębokich sieci wykonujących coraz bardziej złożone zadania.

Struktury kompozycyjne są trudne do zobaczenia, ale wszędzie

Na marginesie dziwne jest, że nawet autorzy nie rozpoznają, że ich pierwsze zadanie polegające na osiągnięciu celu ma strukturę kompozycyjną.

Zadania dotarcia do cząstek ładnie pokazują wyzwania w uogólnieniu w uproszczonym scenariuszu. Jednak zadania nie mają struktury kompozycyjnej, co utrudnia ocenę uogólnienia na nowe zadania.

Mimo że struktura jest rzeczywiście niższa niż układanie bloków i nie jest łatwo dostępna dla eksperymentalnej manipulacji, zadanie jest w rzeczywistości złożone ze wspólnej struktury. Przybliżając świat do płaszczyzny, jedną ze struktur kompozycyjnych jest to, że tożsamość kostki (kolor) jest zachowana z translacją i przejście z bloku A - lub losowej pozycji początkowej - w pozycji (Xa1, Ya1) do bloku B w pozycji (Xb1, Yb2 ) jest częścią tej samej struktury kompozycji wyższego rzędu niż przejście z bloku A w pozycji (Xa2, Ya2) do bloku B w pozycji (Xb2, Yb2).

Interfejsy między sieciami

Uruchomienie sieci neuronowych zdolnych do leczenia danych wejściowych na różnych poziomach abstrakcji będzie wymagało interfejsów, dziedziny, która moim zdaniem przedstawia wiele do odkrycia. Interfejsy te mogą mieć wiele rodzajów. Można je na przykład postrzegać jako wspólny język między dwiema sieciami, jak pokazano w artykule, sieć niższego poziomu uzbrojona w system uwagi (sieć demonstracyjna) może tłumaczyć demonstrację w reprezentacji, z której może korzystać inna sieć (sieć kontekstowa) do bezpośredniego działania bez względu na długość lub początkową konfigurację demonstracji.

Powierzchnia tego języka jest tutaj płaszczyzną o ustalonym rozmiarze, ale można sobie wyobrazić możliwe zmiany, które mogłyby poprawić komunikację między siecią. Na przykład rozmiar powierzchni można ustawić tak, aby dynamicznie zwiększał się lub zmniejszał w miarę interakcji sieci podczas uczenia się, a tym samym kompresowania lub rozszerzania złożoności języka. Możemy również wyobrazić sobie bardziej dynamiczne interakcje, na przykład poprzez informacje zwrotne. Możemy sobie wyobrazić istnienie sieci facylitatorów, które uczyłyby się płynnej komunikacji między sieciami, istniejącej jako sieć równoległa, która uczy się modulować wejście pierwszej sieci w oparciu o wejście i wyjście drugiej sieci. Możemy sobie wyobrazić złożone sieci kontekstowe, które działają jak toniczny (powolny) napływ do wielu bardziej wyspecjalizowanych sieci… Fascynujący przyszły obszar badań!

Przypadki awarii wskazują na możliwe role nowych modułów

Warto zauważyć, że błędy są często spowodowane błędami silnika i że liczba błędów wzrasta wraz ze złożonością zadania.

Funkcji motorycznej nie należy pogarszać jedynie poprzez zwiększenie liczby celów, jest to mocny dowód na to, że sposób, w jaki sieć rozrodcza uczy się rozmawiać z siecią motoryczną, jest zbyt abstrakcyjny. Jest to dziwne, ponieważ, jak twierdzą, ich test pokazuje, że interfejs między siecią kontekstową a siecią motoryczną jest względnie konkretny (pozycja robota, pozycja celu).

Możliwym rozwiązaniem może być, ponieważ jest to architektura modułowa, stosowanie różnych funkcji strat lub modułowych funkcji strat reprezentujących każdy konkretny aspekt zadania. Równoważenie obszarów przedmotorowych mózgu byłoby również pomocne, aby zapewnić, że sieć demonstracyjna i kontekstowa mogą pozostać abstrakcyjne bez pogarszania zdolności motorycznych. Regiony przedmotorowe są niezbędne do lepszego lokalizowania obiektów na podstawie celu (z sieci abstrakcyjnych) i danych sensorycznych w celu wybrania najlepszego polecenia silnika. Wygląda na to, że sieć kontekstowa próbuje zarówno przenieść demonstrację na wyższy poziom osadzania, jak i jednocześnie przygotować akcję motoryczną w bieżącym kontekście. Rolą sieci przedmotorowej byłoby nauczenie się komunikowania się z układem motorycznym w sposób zorientowany na cel i adaptacyjny, łączący zarówno funkcje przedwzmacniacza, jak i móżdżku w celu uczenia się motorycznego i szybkiej adaptacji.

Istnieje ciekawa teoria, paradoks Moraveca, który przewiduje, że nie będzie to poznanie wyższego poziomu, które będzie opodatkowywać obliczeniowo, ale leczenie wejść sensorycznych i sygnałów wyjściowych układów motorycznych. To może rzeczywiście tłumaczyć dużą liczbę neuronów obecnych w naszym móżdżku (więcej niż w pozostałej części naszego mózgu) w celu adaptacyjnego kontrolowania akcji motorycznej. Ten paradoks został sformułowany w czasach (lata 80.), kiedy wciąż wierzyliśmy, że możemy osadzić naszą wiedzę w maszynie do wykonywania złożonych zadań w niekontrolowanym hałaśliwym otoczeniu. Oczywiście ten paradoks ma sens, jeśli w jakiś sposób maszyna jest w stanie reprezentować świat w dyskretnym zbiorze stanów, budowanie na nim funkcji wyższego poziomu byłoby łatwiejsze. Ale wierzę, że oba okażą się wyjątkowo obciążające, a wewnętrzna reprezentacja zastosowana na interfejsie między sieciami będzie daleka od wszystkiego, co przypominałoby nasze własne świadome reprezentacje.

Wniosek

Łącząc różne sieci neuronowe odpowiedzialne za konkretne rozwiązanie problemu, ten artykuł pokazuje, że tworząc zadanie, które z natury wymaga uogólnienia, i budując odpowiednie środowisko uczenia się poprzez randomizację domen, sieć neuronową z dostępem do pamięci i system uwagi może nauczyć się uogólniać poza zwykłe powielanie. Może nauczyć się odkrywać cel wyższego rzędu, który został zademonstrowany tylko raz w strumieniu wizualnym informacji, i wykonuje obliczenia w uogólnionej przestrzeni w celu odzyskania odpowiednich działań zdolnych do odtworzenia tego celu w innym kontekście.

W przyszłości zobaczymy rosnącą złożoność struktur zbudowanych na tych atomowych elementach konstrukcyjnych, które są w stanie nauczyć się generalizować złożone zadania, ale co ważniejsze, wykonują kilka takich zadań w nowych środowiskach, przy mniejszym poleganiu na metodach kodowanych na sztywno, takich jak wstępne przetwarzanie danych wejściowych lub pamięć masowa. Pamięć zostanie zastąpiona rozproszonymi reprezentacjami w sieci pamięci, systemy uwagi zostaną zastąpione cykliczną aktywnością w sieciach uwagi w czasie rzeczywistym. Pozostaje pytanie, w jaki sposób będziemy w stanie dostosować silną technologię szeregową (maszyny Turinga) do naszego zwiększonego polegania na przetwarzaniu rozproszonym w ucieleśnionym systemie.