[IT] 동영상 AI Sora 를 아시나요?

"Creating video from text"

정말 상상만 했던 일이 현실이 되어버렸다.
'상상만으로 동영상을 만들 수 있으면 얼마나 좋을까?' 
항상 하던 상상이 생각보다 빠른 시기에 이뤄진게 좋으면서도 이제는 AI 발전 속도가 무서워지기 시작한다.

 

 

Sora: Creating video from text

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie m

openai.com

 

 

Sora


Introducing Sora, our text-to-video model. Sora can generate videos up to a minute long while maintaining visual quality and adherence to the user’s prompt.

 

텍스트-비디오 모델인 Sora를 소개합니다.

Sora는 시각적 품질을 유지하고 사용자의 메시지를 준수하면서 최대 1분 길이의 비디오를 생성합니다.

 

 

 

Sora 가 만든 영상 소개


 

 

명령어 💬

스타일리시한 여성이 따뜻하고 빛나는 네온과 애니메이션 도시 간판으로 가득한 도쿄 거리를 걷고 있습니다.
그녀는 검은색 가죽 재킷, 빨간색 긴 드레스, 검은색 부츠를 신고 검은색 지갑을 들고 있습니다. 
그녀는 선글라스와 빨간 립스틱을 착용합니다. 그녀는 자신감 있고 자연스럽게 걷습니다. 
거리는 축축하고 반사되어 다채로운 조명의 거울 효과를 만들어냅니다. 많은 보행자들이 걸어 다닙니다.

 

 

 

명령어 💬

빅토리아 왕관을 쓴 비둘기의 클로즈업 사진으로 눈에 띄는 푸른 깃털과 붉은 가슴을 보여줍니다. 
문장은 섬세한 레이스 깃털로 만들어졌으며 눈은 눈에 띄는 붉은 색입니다. 
새의 머리는 약간 옆으로 기울어져 있어 장엄하고 장엄한 느낌을 줍니다. 
배경이 흐려져 새의 눈에 띄는 모습이 눈길을 끕니다.

 

 

단순 명령을 사용해서 만들 수 있지만,

Sora는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 정보로 복잡한 장면을 생성합니다.

 

 

명령어 💬

 드론 카메라가 아말피 해안을 따라 있는 암석 노두 위에 세워진 아름답고 유서 깊은 교회 주위를 돌고 있습니다. 
 전망은 역사적이고 장엄한 건축학적 세부 사항과 계단식 통로 및 파티오를 보여줍니다. 
 전망이 아말피 해안을 내려다보면서 아래 바위에 부딪히는 파도가 보입니다. 
 이탈리아 아말피 해안(Amalfi Coast)의 해안 바다와 언덕이 많은 풍경, 
 멀리 있는 몇몇 사람들이 극적인 바다 전망이 있는 파티오에서 산책하고 
 경치를 즐기고 있는 모습이 보이고, 오후 태양의 따뜻한 빛이 현장에 마술적이고 
 낭만적인 느낌을 만들어내며, 그 전망은 놀랍습니다. 아름다운 사진으로 담았습니다.

 

 

 

 

명령어 💬

다양한 스타일의 아름다운 예술 작품이 많이 있는 미술관을 둘러보세요.

 

 

 

하지만

Sora는 취약한 약점이 존재합니다

 

.

.

.

 

복잡한 장면의 물리학을 정확하게 시뮬레이션하는 데

어려움을 겪을 수 있으며 원인과 결과의 특정 사례를 이해하지 못할 수도 있습니다

 

뜬금없이 뒤로 달리거나

 

명령어 💬

 달리는 사람의 발자국 장면, 35mm로 촬영한 영화 필름.

 

 

 

 

실제 영상을 보면 모래에서 플라스틱 의자가 생성된다..

 

명령어 💬

고고학자들은 사막에서 일반 플라스틱 의자를 발견하고 세심한 주의를 기울여 발굴하고 먼지를 제거합니다.

 

 

 

아직은 배포되기 전이기 때문에 더 안전조치를 취하고 많은 테스트를 한 다음 Open AI 로 배포할 예정입니다.

 

 

Sora 의 기술 일지


 

 

Video generation models as world simulators

We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that oper

openai.com

 

 

 

 

" 우리는 대규모 언어 모델로부터 일반적인 능력을 얻는 데 영감을 받습니다.

13,14 LLM(대규모 언어 모델) 패러다임의 성공은 텍스트, 코드, 수학 및 다양한 자연 언어의

다양한 모달리티를 우아하게 통합하는 토큰의 사용에 부분적으로 기인합니다.

...

15,16,17,18 우리는 패치가 다양한 유형의 비디오 및 이미지에 대한 생성 모델을 훈련시키는 데 매우 확장 가능하고 효과적인 표현임을 발견했습니다. "

"Sora는 확산 모델21,22,23,24,25이며, 입력으로 주어진 잡음이 있는 패치들(및 텍스트 프롬프트와 같은 조건 정보)을 기반으로 원래 '클린' 패치를 예측하는 데 훈련되었습니다. 중요한 점은 Sora가 확산 트랜스포머인 것입니다. ... "

아무트 이렇게 잡음을 잘 잡아주면 더 깨끗해지고 좋아지는 느낌

 

 

위의 내용을 확 체감하게 되는 정보는 아래와 같습니다.

 

 

 

 

이미지 ➜ 비디오

 

단순 텍스트를 영상으로 만들어주는 것만이 아니라, 평면 사진을 입력하면 움직일 수 있도록 변환해준다.

좌: 실제 사진, 우 : Sora를 입힌 후 움직임

 

만약, Sora 가 배포되면 미처 동영상을 남기지 못한 죽은 반려견을 그나마 움직이는 화면으로 볼 수 있지 않을까 생각한다.

 

 

 

평면 사진에 명령어를 입력하여 더 역동적이고 재밌는 비디오를 만들 수 있다.

 

 

비디오 ➜ 비디오

 

비디오를 입력해서 텍스트를 더해 무한 루프의 비디오를 생성할 수 있다.

 

비디오 + 비디오

비디오와 비디오를 합쳐서 새로운 영상을 생성할 수 있다.

좌 우를 합친 가운데 영상 카공작(?)

 

 

텍스트 ➜ 이미지

이미지 또한 생성할 수 있다.

 

 

 

끝내며


세삼 Chat GPT 가 나타난 지 별로 안지났는데

벌써 동영상 AI 까지 나오다니  세상의 발전속도를 내가 적응하지 못하는 느낌이다.

 

Sora는 동반자가 될까 아님 포식자가 될까 ..

 

위의 내용은 흥미로웠던 내용을 위주로 작성했기 때문에

실제 영상과 내용들은 사이트에 들어가면 더 실감나고 자세한 내용들을 확인할 수 있습니다.!

 

흥미로운 Sora AI 에 대해 설명 이만 마치겠습니다 : )

'교양' 카테고리의 다른 글

[전시회] 오스틴 리: 패싱타임 후기 - 롯데뮤지엄  (1) 2023.11.12