Udostępnij ten artykuł
Najnowszy model OpenAI przyjmuje tekstowe sugestie i przekształca je w „złożone sceny z wieloma postaciami, określonymi rodzajami ruchu” i znacznie więcej.
OpenAI wprowadza nowy model generowania wideo i nazywa się Sora. Firma zajmująca się sztuczną inteligencją twierdzi, że Sora „może tworzyć realistyczne i pomysłowe sceny na podstawie instrukcji tekstowych”. Model zamiany tekstu na wideo umożliwia użytkownikom tworzenie fotorealistycznych filmów o długości do minuty — a wszystko to na podstawie napisanych przez nich podpowiedzi.
Sora jest w stanie tworzyć „złożone sceny z wieloma postaciami, określonymi rodzajami ruchu oraz dokładnymi szczegółami tematu i tła” – wynika ze wstępnego wpisu na blogu OpenAI. Firma zauważa również, że model potrafi zrozumieć, w jaki sposób obiekty „istnieją w świecie fizycznym”, a także „dokładnie interpretować rekwizyty i tworzyć fascynujące postacie wyrażające żywe emocje”.
Model może także wygenerować wideo na podstawie nieruchomego obrazu, a także uzupełnić brakujące klatki na istniejącym filmie lub go rozbudować. Wygenerowane przez Sorę dema zawarte w poście na blogu OpenAI obejmują scenę lotniczą Kalifornii podczas gorączki złota, wideo, które wygląda, jakby zostało nakręcone z wnętrza tokijskiego pociągu i inne. Wiele z nich ma pewne charakterystyczne oznaki sztucznej inteligencji – jak podejrzanie poruszająca się podłoga na filmie przedstawiającym muzeum – a OpenAI twierdzi, że model „może mieć problemy z dokładnym symulowaniem fizyki złożonej sceny”, ale ogólnie wyniki są całkiem imponujące.
Kilka lat temu to generatory zamiany tekstu na obraz, takie jak Midjourney, przodowały w możliwościach przekształcania słów w obrazy przez modele. Jednak ostatnio jakość wideo zaczęła się poprawiać w niezwykłym tempie: firmy takie jak Runway i Pika pokazały własne imponujące modele zamiany tekstu na wideo, a należąca do Google Lumiere jest uważana za jednego z głównych konkurentów OpenAI również w tej przestrzeni. Podobnie jak Sora, Lumiere zapewnia użytkownikom narzędzia do zamiany tekstu na wideo, a także pozwala im tworzyć filmy z nieruchomego obrazu.
Sora jest obecnie dostępna tylko dla „czerwonych drużyn”, którzy oceniają model pod kątem potencjalnych szkód i ryzyka. OpenAI oferuje także dostęp do niektórych artystów wizualnych, projektantów i filmowców, aby uzyskać opinie. Zauważa, że istniejący model może nie symulować dokładnie fizyki złożonej sceny i może nieprawidłowo interpretować pewne przypadki przyczyny i skutku.
Na początku tego miesiąca OpenAI ogłosiło, że doda znaki wodne do narzędzia do przetwarzania tekstu na obraz DALL-E 3, zauważa jednak, że można je „łatwo usunąć”. Podobnie jak inne produkty AI, OpenAI będzie musiało stawić czoła konsekwencjom fałszywych, fotorealistycznych filmów AI, które zostaną pomylone z prawdziwymi .