Najnowszy model sztucznej inteligencji nazwany „Segment Anything” od Meta ma potencjał zrewolucjonizowania branży VR jak i AR.
Meta niedawno opublikowała nowy model SI – SAM (Segment Anything Model), który został wytrenowany na potężnej ilości danych, innymi słowy na 11 milionach różnych obrazów i miliardzie półautomatycznych segmentacji, w celu nauki segmentowania różnych obiektów na obrazie.
Segmentacja to proces identyfikacji pikseli obrazu należących do obiektu – może być stosowana w różnych aplikacjach, takich jak analiza obrazów naukowych lub w edycji zdjęć – informuje Meta.
„SAM nauczył się ogólnej koncepcji, czym są obiekty i może generować maski dla dowolnego obiektu na obrazie lub wideo” – twierdzi firma w artykule. „W dziedzinie AR/VR mógłby umożliwić wybór obiektu na podstawie spojrzenia użytkownika, a następnie „przenieść” go do 3D”.
Jak może to zmienić branżę VR i AR?
Sztuczna inteligencja od Mety ma dosyć spory potencjał, aby odegrać znaczącą rolę w ulepszaniu technologii związanych z rozszerzoną i wirtualną rzeczywistością. Przyszłościowe gogle mieszanej rzeczywistości mogą na przykład umożliwić wybór obiektów na podstawie tego, na co aktualnie patrzy użytkownik, pozwalając na interakcje z tymi obiektami lub wyświetlanie informacji o nich.
Na przykład, dzięki okularom AR, osoba mogłaby spojrzeć na lampę w swoim salonie. Po zarejestrowaniu spojrzenia, SAM rozpoznałby obiekt będący obecnie oglądany, segmentował go i umożliwił użytkownikowi włączanie i wyłącznie lampy za pomocą poleceń głosowych lub innego sposobu kontrolowania, na przykład gestem dłoni.
Jednak moim zdaniem, jedną z najbardziej imponujących przykładów wykorzystania jego możliwości jest zdolność do segmentacji obiektów, a dokładniej co można za jego pomocą zrobić. Dla przykładu, podczas grania w VRChat z przyjaciółmi, jedna z osób mogłaby przełączyć się w tryb passthrough, użyć SAM do zeskanowania i segmentacji książki, a następnie wrócić do VRchat’a, aby pokazać swoją książkę z prawdziwego życia innym.
To był tylko mój przykład, natomiast Meta wysunęła podobny pomysł. W swoim artykule firma mówi o możliwości, jak użytkownicy z goglami VR mogliby spojrzeć na obiekt w wirtualnej przestrzeni, SAM rozpoznałby go i przeniósł do trójwymiarowej przestrzeni w AR.
Ponadto, w doświadczeniach AR lub mieszanej rzeczywistości, sztuczna inteligencja od Mety mogłaby znacząco ułatwić codzienne czynności, takie jak zakupy, nawigacja czy prace w domu. AI umożliwiłaby użytkownikom łatwe identyfikowanie i interakcje z obiektami dostarczając użytkownikowi odpowednie informację lub pomoc.

AI te ma potencjał, aby stać się codziennym asystentem przy korzystaniu z urządzeń AR lub VR. „może on również zrozumieć zarówno treść wizualną jak i tekstową strony internetowej, lub analizować obrazy naukowe” – Mówi Meta.
To oznacza, że mógłby on pomóc twórcom treści poprzez zwiększenie produktywności w programowaniu front-end lub edycji wideo. Meta mówi również o tym, jak ich SI pomaga badać naturalne zjawiska na Ziemi, a nawet na innych planetach, dzięki czemu naukowcy mogliby korzystać z jego umiejętności pomimo braku okularów AR.
Jeżeli „Segment Anything Model” jest tak zaawansowany jak Meta mówi, że jest, możemy zobaczyć niektóre z jego funkcji w nadchodzącym Meta Quest 3. Według plotek, Meta Quest 3 będzie urządzeniem skupiającym się na rzeczywistości mieszanej, wycenionym nieco wyżej niż obecny Meta Quest 2.
SI od Meta mogłoby również poprawić pracę deweloperów nad grami mixed-reality. Przytoczę tu przykład indie dewelopera VR, który pracuje nad grą FPS w rzeczywistości mieszanej. W filmie demonstrującym proces tworzenia, deweloper poświęca kilka minut na ręczne mapowanie ścian, obiektów, mebli i innych elementów w otoczeniu.
Cały ten proces można łatwo zautomatyzować, korzystając z czujnika głębi i SAM-a. Sztuczna inteligencja mogłaby to nawet usprawnić, mapując mniejsze obiekty w otoczeniu, takie jak zegar na ścianie, i sprawiając, że upada na podłogę, gdy zostanie trafiony z odległości w grze.
Podczas gdy zdolności w tematyce rzeczywistości mieszanej Questa Pro są w pewnym stopniu ograniczone, opierając się na wielu wyciekach okazuje się, że nadchodzący Meta Quest 3 będzie dysponował aż dwoma kolorowymi kamerami passthrough oraz czujnikiem głebi, czyli rzeczami których brakuje Quest’owi Pro.
Film powyżej przedstawia osobę noszącą gogle XR i chodzącą po pomieszczeniu. Po bliższym przyjrzeniu się widac, że przedmioty w filmie są mierzone pod kątem odległości między nimi a użytkownikiem – to wskazuje, że urządzenie używane w filmie jest wyposażone w czujnik głębi.
Z Meta Quest’em 3 możliwości są ogromne – dwie kamery passthrough w pełnym kolorze oraz czujnik głębi dadzą użytkownikom możliwość widzenia i interakcji z rozszerzonym światem w sposób dotąd niespotykany. Gogle będą sprzedawane z w całkiem rozsądnej cenie – bowiem nawet jeśli podstawowa wersja Questa 3 będzie kosztować 500 dolarów (czyli na Polskie 2600 zł uwzględniając podatek i kurs Euro), jest to wciąż o pół ceny mniej niż biedniejszy pod względem funkcji mieszanej rzeczywistości Quest Pro.
Ogólnie rzecz biorąc, wbudowane algorytmy sztucznej inteligencji umożliwiać będą bardzo użyteczne rozwiązania, ponieważ przyszłe urządzenia od Mety będą mogły na żywo wykrywać i rozpoznawać obiekty i twarze, co zapewni lepszy i bardziej intuicyjny sposób interakcji w AR. Ponadto, podobne funkcje być może zobaczymy w nadchodzącym Apple Reality Pro, którego premiera jest nieoficjalnie datowana na 5 czerwca tego roku na WWDC23.
SAM dostępny jest za darmo do wypróbowania na githubie, wraz z jego wersją demonstracyjną online.
Nawet jeśli SI od Mety nie zostanie dostarczone wraz z Meta Quest’em 3, z pewnością będzie obecne w przyszłych produktach mixed-reality od firmy. Sztuczna Inteligencja nad którą pracuję Meta z pewnością może zmienić sposób, w jaki postrzegamy teraz rzeczywistość rozszerzoną.