[IT] 동영상 AI Sora 를 아시나요?

"Creating video from text"

정말 상상만 했던 일이 현실이 되어버렸다.
'상상만으로 동영상을 만들 수 있으면 얼마나 좋을까?'
항상 하던 상상이 생각보다 빠른 시기에 이뤄진게 좋으면서도 이제는 AI 발전 속도가 무서워지기 시작한다.

Sora: Creating video from text

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie m

openai.com

Sora

Introducing Sora, our text-to-video model. Sora can generate videos up to a minute long while maintaining visual quality and adherence to the user’s prompt.

텍스트-비디오 모델인 Sora를 소개합니다.

Sora는 시각적 품질을 유지하고 사용자의 메시지를 준수하면서 최대 1분 길이의 비디오를 생성합니다.

Sora 가 만든 영상 소개

명령어 💬

스타일리시한 여성이 따뜻하고 빛나는 네온과 애니메이션 도시 간판으로 가득한 도쿄 거리를 걷고 있습니다.
그녀는 검은색 가죽 재킷, 빨간색 긴 드레스, 검은색 부츠를 신고 검은색 지갑을 들고 있습니다. 
그녀는 선글라스와 빨간 립스틱을 착용합니다. 그녀는 자신감 있고 자연스럽게 걷습니다. 
거리는 축축하고 반사되어 다채로운 조명의 거울 효과를 만들어냅니다. 많은 보행자들이 걸어 다닙니다.

명령어 💬

빅토리아 왕관을 쓴 비둘기의 클로즈업 사진으로 눈에 띄는 푸른 깃털과 붉은 가슴을 보여줍니다. 
문장은 섬세한 레이스 깃털로 만들어졌으며 눈은 눈에 띄는 붉은 색입니다. 
새의 머리는 약간 옆으로 기울어져 있어 장엄하고 장엄한 느낌을 줍니다. 
배경이 흐려져 새의 눈에 띄는 모습이 눈길을 끕니다.

단순 명령을 사용해서 만들 수 있지만,

Sora는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 정보로 복잡한 장면을 생성합니다.

명령어 💬

 드론 카메라가 아말피 해안을 따라 있는 암석 노두 위에 세워진 아름답고 유서 깊은 교회 주위를 돌고 있습니다. 
 전망은 역사적이고 장엄한 건축학적 세부 사항과 계단식 통로 및 파티오를 보여줍니다. 
 전망이 아말피 해안을 내려다보면서 아래 바위에 부딪히는 파도가 보입니다. 
 이탈리아 아말피 해안(Amalfi Coast)의 해안 바다와 언덕이 많은 풍경, 
 멀리 있는 몇몇 사람들이 극적인 바다 전망이 있는 파티오에서 산책하고 
 경치를 즐기고 있는 모습이 보이고, 오후 태양의 따뜻한 빛이 현장에 마술적이고 
 낭만적인 느낌을 만들어내며, 그 전망은 놀랍습니다. 아름다운 사진으로 담았습니다.

명령어 💬

다양한 스타일의 아름다운 예술 작품이 많이 있는 미술관을 둘러보세요.

하지만

Sora는 취약한 약점이 존재합니다

복잡한 장면의 물리학을 정확하게 시뮬레이션하는 데

어려움을 겪을 수 있으며 원인과 결과의 특정 사례를 이해하지 못할 수도 있습니다

명령어 💬

 달리는 사람의 발자국 장면, 35mm로 촬영한 영화 필름.

명령어 💬

고고학자들은 사막에서 일반 플라스틱 의자를 발견하고 세심한 주의를 기울여 발굴하고 먼지를 제거합니다.

아직은 배포되기 전이기 때문에 더 안전조치를 취하고 많은 테스트를 한 다음 Open AI 로 배포할 예정입니다.

Sora 의 기술 일지

Video generation models as world simulators

We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that oper

openai.com

" 우리는 대규모 언어 모델로부터 일반적인 능력을 얻는 데 영감을 받습니다.

13,14 LLM(대규모 언어 모델) 패러다임의 성공은 텍스트, 코드, 수학 및 다양한 자연 언어의

다양한 모달리티를 우아하게 통합하는 토큰의 사용에 부분적으로 기인합니다.

...

15,16,17,18 우리는 패치가 다양한 유형의 비디오 및 이미지에 대한 생성 모델을 훈련시키는 데 매우 확장 가능하고 효과적인 표현임을 발견했습니다. "