Home 기술 YouTube에서 AI가 자연스럽게 외국어를 말할 수 있는 방법을 알려주었습니다.

YouTube에서 AI가 자연스럽게 외국어를 말할 수 있는 방법을 알려주었습니다.

23
0
YouTube에서 AI가 자연스럽게 외국어를 말할 수 있는 방법을 알려주었습니다.

영상콘텐츠 업계는 현재 간략한 설명으로만 설명할 것이라는 반성점에 있다. 한편으로는 AI 콘텐츠 제조사의 창의적 잠재력을 과시하고 있지만, 바다 반대편에서는 AI OP와 잘못된 정보가 고질적인 정보의 문제입니다. 그러나 AI의 완벽한 잠재력은 무시할 수 없습니다.

유튜브 사람들은 접근성과 현실성에 중점을 두고 잘 활용하고 있습니다. 그럼 다음은 무엇입니까? 화자는 영상에서 언어로 입술을 떼는 것조차 말하지 않는다. 작년에 출시된 자동 더빙 기능을 기반으로 팀은 이제 새로운 AI 기반 립싱크 기능을 갖게 되었습니다.

기계 번역 오디오는 지난 몇 분기 동안 극적으로 개선되었으며 이제는 거의 자연스러운 것처럼 보입니다. Google NotebookLM의 오디오 개요가 좋은 예입니다. 그런데 영상이 나오면 입술 움직임이 화자가 대본 번역판에 말하는 것만이 아니기 때문에 밋밋해진다.

https://www.youtube.com/watch?v=8w3Noe2UXAG

꽤 쓰레기이고 터무니없는 일입니다. AI 기반 립싱크 기능은 이러한 시청각 분리를 극복하려고 합니다. 그리고 지금까지 봐온 샘플들 보면 이상할 정도로 자연스럽다는 느낌이 듭니다. 유튜브 프로덕트 리드, 오토댑, 인텔리전스 할당량, 립싱크 개발 과정, 그 효과와 앞으로의 방향에 대해 이야기를 나눴습니다.

발굴

도입된 지 1년도 채 되지 않아 YouTube의 자동 더빙 기능을 사용하여 20개 언어로 6천만 개 이상의 동영상을 더빙했습니다. 그러나 대화 강의의 모든 개요를 자연스러운 멜로디로 유지하고 현실적인 입술을 맞추는 것은 완전히 새로운 도전입니다.

표면적으로 Kothachi는 립싱크 시스템이 “번역된 음성과 일치하도록 화면의 픽셀을 변경합니다”라고 말했습니다. Google Executive는 이것이 맞춤형 기술 스택이며 세상, 입술 크기, 치아, 자세 및 얼굴에 대한 3D 이해를 개발해야 한다고 덧붙였습니다.

이제 이 기술은 Full-HD(1080)에 적합하지만 아직까지 4K 비디오는 튜닝되지 않았습니다. “그러나 일반적으로 업로드하는 비디오 해상도에서는 작동해야 합니다.”라고 그는 말했습니다. 언어 지원에 관한 한 YouTube의 AI 기반 립싱크 기능은 영어, 스페인어, 독일어, 포르투갈어 및 프랑스어를 지원합니다.

이것은 매우 제한된 풀이지만 Kothachchi는 팀이 확장되고 있으며 립싱크가 마침내 자동 더빙 기능(현재 20개 이상의 언어로 제공됨)을 작동하여 동일한 언어를 지원할 수 있다고 말했습니다. 비교를 위해 Meta의 Facebook 및 Instagram용 AI-Jalani 립싱크 기능은 영어, 스페인어, 힌디어 및 포르투갈어만 지원합니다.

이제 AI 기반 립싱크는 완벽하게 외계인의 아이디어가 아닙니다. Adobe는 이미 자동 립싱크 기능을 제공하고 있습니다. 그런 다음 무료라고 주장하는 Heisen과 같은 타사 옵션이 있습니다. 하지만 유튜브라고 하면 매일 2천만 개의 동영상이 업로드되는 거대한 규모의 플랫폼에 내장된 시스템을 말하는 것입니다.

당신의 얼굴을 위한 AI 바벨 피쉬

그렇다면 가용성 측면에서 다음 단계는 무엇입니까? Kotahchi는 “우리는 이를 어떻게 광범위하게 만들 것인지에 대해 폭넓게 설명할 준비가 되어 있지 않지만 더 많은 제작자에게 제공하고 싶지 않으며 제약 조건과 품질을 이해하고 싶지 않습니다”라고 말했습니다. 그리고 그것은 우리의 중요한 비용을 문제로 가져옵니다.

제가 검색했을 때 YouTube 임원은 만약 그렇다면 관련 수수료를 예측할 수 없다고 말했습니다. 이는 시장을 이해하고 계산 비용을 이해하기 위해 신뢰할 수 있는 소규모 심사관 풀에서 시장이 여전히 파일럿 프로젝트의 일부인 이유를 추가로 설명합니다. 기념하기 위해 이것은 AI의 복잡한 비전 기반 구현입니다.

따라서 몇 개의 클립을 만들 수 있는 AI 노출 동영상과 마찬가지로 더 높은 해상도나 노력에 대한 비용을 지불해야 하는 것처럼 YouTube는 컴퓨터 비용을 고려하여 출시를 결정해야 합니다. 하지만 크리에이터 입장에서는 더 널리 퍼트리면 구독료를 내야 할 것 같아요.

AI 딜레마

AI 영상이 인터넷에 범람하기 시작하면서 진실과 공정한 표현을 둘러싼 논쟁이 뜨거워졌습니다. “진짜란 게 뭐야?” 소셜미디어 이용자들은 오픈아이 소라 앱이 제작한 팝업을 시작하자마자 더욱 자극적인 질문을 던지고 있다.

이러한 비디오에는 눈에 보이는 워터마크가 있지만 이미 AI 노출 클립에서 Sora 라벨을 제거하는 무료 및 결제 장비가 있습니다. 또는 이 주제에 대한 다른 AI 콘텐츠 생성기. AI의 최대 개발자이자 수용자 중 하나인 Google은 이를 매우 잘 알고 있습니다.

이 회사는 합성 시스템으로 AI 지문 인식 경쟁의 초기 선두주자 중 하나였으며, 사용자가 멀티미디어 제품 소스를 확인할 수 있도록 돕기 위해 올해 초 합성 감지 장비도 출시했습니다.

구글의 AI 기반 립싱크 기능에 의존하는 유튜브 영상은 좀 더 신중하게 살펴볼 예정이다. 코타하치씨는 “이번 영상에서는 음성과 영상 모두 합성되거나 변경된 것임을 제대로 표현하게 될 것”이라고 말했다. “영상 자료도 지문 자체를 얻습니다.”

텍스트 사용 동의서는 자동 더빙 시스템을 사용한 동영상에 표시되는 것과 마찬가지로 YouTube 동영상 제목 아래의 세부정보 상자에 표시됩니다. 그런데 크리에이터가 인스타그램이나 티켓을 게시하면 다른 플랫폼에서는 AI-dabd, lip-signi YouTube 동영상을 어떻게 처리할까요?

알고리즘이 뜨거워질까요?

티켓즈는 최근 AI 도구를 사용해 영상에 ‘제작 또는 편집’이라는 라벨을 붙이고 사용자들이 C2 PA 검증 장비를 사용해 소스를 확인할 수 있도록 지문을 제공하겠다고 발표했다. 메타플레이스에도 비슷한 시스템이 있습니다. 그렇다면 다른 소셜 영상 플랫폼에 올라온 제가 편집한 영상들의 운명은 어떻게 될까요?

알고리즘에 따라 하향 조정되거나 특정 피드에 표시되지 않도록 됩니까? 상황은 다소 복잡하고 예상치 못한 일입니다. “이것은 우리가 주의 깊게 관찰하고 있는 것이지만, 플랫폼이 성명을 발표했지만 우리는 그것이 어떻게 구현되었는지 보지 못했기 때문에 이것은 조금 이르다”고 그는 말했습니다. “보통 우리는 번역을 번역하지만 새로운 콘텐츠는 번역하지 않습니다.”

창작자의 영상을 사용하고, 오디오를 번역하고, 악의적인 행위자들과 적절한 동의 없이 다른 채널이나 플랫폼에서 이들을 밀어냈습니다. 자동 더빙과 AI 립싱크는 기술적으로 부정직한 작업을 더 쉽게 구현할 수 있게 해주지만, 완전한 혼란으로 전환되지는 않을 것입니다.

Kothachchi는 “당신의 비교가 플랫폼의 다른 곳에서 사용된다면 우리에게 그것에 대해 알려주고 그것을 받아들이라고 말할 수 있습니다”라고 Kotahachchi는 말했습니다. 자동 더빙, 표현력이 풍부한 오디오, 립 사인 영상을 통해 YouTube가 어떻게 더 다양한 경험을 경험하는지 지켜보는 것도 흥미로울 것입니다. 표면적으로는 승리처럼 보입니다.

몇 년 전에 듀오링고 장르를 떠났지만 스페인어로 말하는 제 모습을 보고 싶어요.






소스 링크