Udostępnij ten artykuł

Udostępnij

Najnowszy model OpenAI przyjmuje tekstowe sugestie i przekształca je w „złożone sceny z wieloma postaciami, określonymi rodzajami ruchu” i znacznie więcej.

OpenAI wprowadza nowy model generowania wideo i nazywa się Sora. Firma zajmująca się sztuczną inteligencją twierdzi, że Sora „może tworzyć realistyczne i pomysłowe sceny na podstawie instrukcji tekstowych”. Model zamiany tekstu na wideo umożliwia użytkownikom tworzenie fotorealistycznych filmów o długości do minuty — a wszystko to na podstawie napisanych przez nich podpowiedzi.

Sora jest w stanie tworzyć „złożone sceny z wieloma postaciami, określonymi rodzajami ruchu oraz dokładnymi szczegółami tematu i tła” – wynika ze wstępnego wpisu na blogu OpenAI. Firma zauważa również, że model potrafi zrozumieć, w jaki sposób obiekty „istnieją w świecie fizycznym”, a także „dokładnie interpretować rekwizyty i tworzyć fascynujące postacie wyrażające żywe emocje”.

Mogą Cię zainteresować

Model może także wygenerować wideo na podstawie nieruchomego obrazu, a także uzupełnić brakujące klatki na istniejącym filmie lub go rozbudować. Wygenerowane przez Sorę dema zawarte w poście na blogu OpenAI obejmują scenę lotniczą Kalifornii podczas gorączki złota, wideo, które wygląda, jakby zostało nakręcone z wnętrza tokijskiego pociągu i inne. Wiele z nich ma pewne charakterystyczne oznaki sztucznej inteligencji – jak podejrzanie poruszająca się podłoga na filmie przedstawiającym muzeum – a OpenAI twierdzi, że model „może mieć problemy z dokładnym symulowaniem fizyki złożonej sceny”, ale ogólnie wyniki są całkiem imponujące.

Kilka lat temu to generatory zamiany tekstu na obraz, takie jak Midjourney, przodowały w możliwościach przekształcania słów w obrazy przez modele. Jednak ostatnio jakość wideo zaczęła się poprawiać w niezwykłym tempie: firmy takie jak Runway i Pika pokazały własne imponujące modele zamiany tekstu na wideo, a należąca do Google Lumiere jest uważana za jednego z głównych konkurentów OpenAI również w tej przestrzeni. Podobnie jak Sora, Lumiere zapewnia użytkownikom narzędzia do zamiany tekstu na wideo, a także pozwala im tworzyć filmy z nieruchomego obrazu.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Sora jest obecnie dostępna tylko dla „czerwonych drużyn”, którzy oceniają model pod kątem potencjalnych szkód i ryzyka. OpenAI oferuje także dostęp do niektórych artystów wizualnych, projektantów i filmowców, aby uzyskać opinie. Zauważa, że istniejący model może nie symulować dokładnie fizyki złożonej sceny i może nieprawidłowo interpretować pewne przypadki przyczyny i skutku.

Na początku tego miesiąca OpenAI ogłosiło, że doda znaki wodne do narzędzia do przetwarzania tekstu na obraz DALL-E 3, zauważa jednak, że można je „łatwo usunąć”. Podobnie jak inne produkty AI, OpenAI będzie musiało stawić czoła konsekwencjom fałszywych, fotorealistycznych filmów AI, które zostaną pomylone z prawdziwymi .

OpenAI wprowadza Sora, model sztucznej inteligencji przekształcający tekst na wideo

OpenAI wprowadza Sora, model sztucznej inteligencji przekształcający tekst na wideo

Udostępnij ten artykuł

Mogą Cię zainteresować

Oto jak mógłby wyglądać sklep z aplikacjami mobilnymi Epic Games

Funkcje iOS 17.5: Co nowego w iOS 17.5

Możliwe, że obudowa wykonana z tytanu w iPhone 16 Pro ulegnie modyfikacji

Bartłomiej Janczak

Zapisz się do newslettera