인체영상합성

Human image synthesis
이 형태 대상 애니메이션 시스템에서 네 가지 "표현식"이 모델의 기하학적 형태 변형으로 정의되었습니다.이 네 가지 표현을 조합하여 입 모양을 애니메이션화할 수 있습니다.유사한 컨트롤을 적용하여 인간과 같은 모델 전체를 애니메이션화할 수 있습니다.

인간 이미지 합성은 인간과 유사한 것을 움직이거나 가만히 있는 것처럼 믿을 수 있고 심지어 사진을 사실적으로 표현하기[1][2] 위해 적용될 수 있는 기술입니다.그것은 2000년대 초반부터 효과적으로 존재해왔습니다.컴퓨터에서 생성된 이미지를 사용하는 많은 필름은 실제 또는 다른 모의 필름 재료에 디지털로 합성된 인간과 같은 캐릭터의 합성 이미지를 특징으로 합니다.2010년대 말로 접어들면서 딥러닝 인공지능은 훈련 단계가 완료되면 인간의 도움 없이도 인간처럼 보이는 이미지와 영상을 합성하는 데 적용되어 왔지만, 기존의 학교 7D 경로는 방대한 양의 인간 작업이 필요했습니다.

인간 영상 합성 연표

  • 2017년[16] 말과 2018년 초에는 딥머신러닝을 이용해 포르노 영상을 촬영해 여배우의 얼굴을 다른 사람들이 똑같은 포즈와 조명으로 보는 소프트웨어의 의견으로 대체하는 딥페이크 논란이 표면화되기도 했습니다.
  • 2018년 GDC 에픽 게임스와 텐센트 게임스는 여배우 빙제 지앙의 디지털 외모를 닮은 "사이렌"을 시연했습니다.다음과 같은 기술로 가능해졌습니다.큐빅모션컴퓨터 비전 시스템, 3Lateral의 안면 조작 시스템 그리고 Vicon의 모션 캡처 시스템언리얼 엔진 4에서는 초당 60프레임으로 시연이 거의 실시간으로 진행됐습니다.[17]
  • 2018년 우전에서 열린 세계 인터넷 회의에서 신화 통신사는 실제 뉴스 앵커인 추하오(중국어)[18]와 장자오(영어)를 닮은 두 개의 디지털 외모를 선보였습니다.디지털 룩-유사는 소고우와 함께 만들어졌습니다.[19]사용된 음성 합성이나 디지털 외모의 앵커들의 몸짓 모두 TV 카메라로 촬영된 진짜 인간으로 착각하도록 관찰자를 속일 만큼 충분하지 않았습니다.
  • 2018년 9월 구글은 "무의도적 합성 포르노 이미지"를 금지 목록에 추가하여 누구나 검색 엔진에 "누드 또는 성적으로 노골적인 상황"이라고 거짓으로 묘사하는 결과를 요청할 수 있습니다.[20]
  • 2019년 2월 엔비디아 오픈 소스 StyleGAN,[21] 새로운 생성 적대 네트워크.이것이 있은 직후 필립 왕은 스타일로 ThisPersonDoesNotExist.com 웹사이트를 만들었습니다.GAN을 사용하여 아무도 없는 얼굴 초상화를 무제한으로 만들 수 있음을 보여주는 GAN.[22]엔비디아의 스타일GAN은 2018년 말에 아직 동료 검토되지 않은 논문으로 발표되었습니다.[22]
  • 2019년 6월 CVPR에서 MIT CSAIL은 "Speech2Face: Learning the Face Behind a Voice"라는 제목의 시스템을 발표했습니다.그것은 사람들이 말하는 방대한 양의 비디오로 훈련되었습니다.
  • 2019년 7월 1일부터 버지니아 주는 '다른 사람의 이미지를 불법으로 유포하거나 판매하는 행위; 벌점'이라는 제목의 § 18.2–386.2에 따라 '다른 사람의 이미지를 불법으로 유포하거나 판매하는 행위; 벌점'이 버지니아 법전의 일부가 되었습니다.법문은 다음과 같이 명시하고 있습니다: "완전히 나체인 다른 사람을 묘사하거나 생식기, 공공기, 엉덩이 또는 여성의 유방을 노출시키기 위해 옷을 벗은 상태에서 제작된 비디오 또는 스틸 이미지를 악의적으로 유포하거나 판매하는 모든 사람, 그러한 사람이 그러한 비디오 또는 스틸 이미지를 배포하거나 판매할 수 있는 허가 또는 권한없음을 알고 있거나만한 이유가 있는 경우 1급 경범죄범합니다."[24]동일한 법안은 2019년 1월 14일 마커스 사이먼 하원의원버지니아주 하원에 제출한 하원 법안 2678이었고, 3일 후 애덤 에빈 상원의원에 의해 버지니아주 상원에 동일한 상원 법안 1736이 제출되었습니다.
  • 2019년 9월 1일부터 텍사스주 상원 법안 SB 751개의 선거법 개정안이 시행됨에 따라 선거에서 후보자에게 디지털 닮은 꼴이나 합성 가짜를 만들어 배포하는 것은 위법 행위가 됩니다.법조문은 법문의 대상을 "실제로는 발생하지 않은 행위를 하는 실제 사람을 묘사하는 것으로 보이는, 속이려는 의도로 만들어진 영상"으로 정의하고 있습니다.[25]
  • 2019년 9월 핀란드 공영방송 Yle은 진보하는 허위 정보 기술과 이로 인해 발생하는 문제점을 부각시키기 위해 메인 뉴스 방송에서 대통령직에 있는 사울리 니니스퇴의 딥페이크인 실험적 저널리즘의 결과물을 방영했습니다.
  • 2020년[26] 1월 1일 캘리포니아 AB-602는 묘사된 사람들의 동의 없이 합성 포르노를 제조하고 배포하는 것을 금지했습니다.AB-602는 합성음란물 피해자에게 명령적 구제를 제공하고 동의 없이 합성음란물을 만들거나 배포하는 범죄자에게 법적징벌적 손해배상의 위협을 가합니다.AB-602 법안은 2019년 10월 3일 캘리포니아 주지사 개빈 뉴섬에 의해 법으로 제정되었으며 캘리포니아의회 의원 마크 버먼에 의해 작성되었습니다.[27]
  • 2020년 1월 1일, 중국은 가짜 영상에 대한 명확한 고지가 있어야 한다고 요구하고 있습니다.중국 사이버공간관리국은 이를 지키지 않으면 범죄로 간주할 수 있다고 웹사이트에 밝혔습니다.중국은 2019년 11월 이 새로운 법을 발표했습니다.[28]중국 정부는 이 규정을 지키지 않는 사용자와 온라인 동영상 플랫폼 모두를 기소할 권리를 유보하고 있는 것으로 보입니다.[29]

포토리얼리즘의 핵심 혁신: 반사율 캡처

에스퍼 라이트케이지는 7D 반사율 모델에 포착하기에 적합한 구 주변에 다중 카메라가 설치구면 라이트 스테이지의 한 예입니다.

1999년 USC의 Paul Debec et al. 은 극도로 단순한 빛 단계로 인간의 얼굴 위에 반사율을 포착한 것으로 최초로 알려져 있습니다.그들은 SIGGRAPH 2000에서 그들의 방법과 결과를 발표했습니다.[4]

인체 피부 유사성을 위한 양방향 산란 분포 기능(BSDF)은 BRDF빛이 피부로 들어가고, 투과되고, 피부 밖으로 나가는 BTDF의 특수한 경우를 모두 필요로 합니다.

과학적인 획기적인 발전을 위해서는 지표면 아래의 빛 성분(시뮬레이션 모델이 약간 안쪽에서 빛나고 있음)을 찾아야 했습니다. 이 성분은 오일 대 공기 층에서 반사된 빛은 편광을 유지하고 지표면 아래의 빛은 편광을 잃습니다.그래서 이동식 광원, 이동식 비디오 카메라, 2개의 편광기, 그리고 아주 간단한 수학을 하는 컴퓨터 프로그램만 장착되어 있었고 사진 현실에 도달하기 위해 필요한 마지막 작품을 획득했습니다.[4]

신뢰할 수 있는 결과를 얻으려면 피부(BRDF)와 BSDF를 구성하는 피부(BTDF의 특별한 경우)에서 반사되는 빛을 모두 포착하고 시뮬레이션해야 합니다.

캡쳐하기

  • Arius3d 또는 Cyberware와 같은 RGB XYZ 스캐너(순수 RGB XYZ 스캐너가 아닌 사진의 텍스트)로 3D 스캔을 통해 대상을 샘플링하거나, 동기화된 사진에서 입체 사진 기하학적으로 또는 충분히 반복되지 않는 사진에서까지 3D 재구성 방법으로 3D 모델에 캡처합니다.디지털 조각은 옷으로 덮인 신체 부위와 같이 데이터를 획득할 수 없는 신체 부위의 모델을 구성하는 데 사용될 수 있습니다.
  • 또한 신뢰할 수 있는 결과를 얻으려면 반사율 필드를 캡처하거나 라이브러리에서 근사치를 선택하여 대상의 7D 반사율 모델을 구성해야 합니다.#

합성

디지털 닮은 캐릭터, 즉 캐릭터가 인간의 사진으로 전달될 수 있을 정도로 사실적이고 사실적으로 만들어지는 모든 과정은 인간의 모습을 사실적으로 모델링하고, 애니메이션화하고, 교차 매핑하고, 그리고 부드러운 몸역동성을 렌더링해야 하기 때문에 매우 복잡한 작업입니다.

배우와 적합한 알고리즘을 적용한 합성은 강력한 컴퓨터를 사용합니다.합성에서 배우의 역할은 정지화면 합성에서 사람의 표현을 모방하는 것과 동영상 합성에서 사람의 움직임을 모방하는 것입니다.물리학과 생리학의 법칙을 시뮬레이션하고 그에 따라 모델과 모델의 외관, 움직임 및 상호작용을 매핑하기 위한 알고리즘이 필요합니다.

종종 물리학/생리학 기반(즉, 골격 애니메이션)과 이미지 기반 모델링 및 렌더링이 합성 부분에 모두 사용됩니다.두 가지 접근 방식을 모두 사용한 하이브리드 모델은 현실성과 사용 편의성 측면에서 가장 좋은 결과를 보여주었습니다.Morp target 애니메이션은 다양한 얼굴 표정이 모델의 변형으로 정의되어 얼굴 표정을 직관적으로 조정할 수 있는 높은 수준의 제어 기능을 제공하여 작업량을 줄입니다.모프 타겟 애니메이션은 사람의 개입 없이도 서로 다른 정의된 얼굴 표정이나 신체 자세 사이에서 모델을 모프 할 수 있습니다.

변위 매핑을 사용하는 것은 100 µm 정도의 작은 모공, 주름 등 피부의 미세한 디테일로 사실적인 결과를 얻는 데 중요한 역할을 합니다.

기계학습 접근법

2010년대 후반, NVIDIA는 기계 학습 및 보다 정확하게 GAN(Generative Adversarial Network)을 사용하여 무작위적이면서도 사실적인 인간 초상화를 제작했습니다.StyleGAN이라는 이름의 이 시스템은 이미지 보관소 웹사이트 Flickr에서 나온 70,000개의 이미지 데이터베이스에서 훈련을 받았습니다.소스코드는 2019년 깃허브에 공개됐습니다.[30]무작위 입력에 의한 발전기 네트워크의 출력은 다수의 웹사이트에서 공개되었습니다.[31][32]

마찬가지로, 2018년부터 딥 페이크 기술을 통해 GAN은 행위자 간 얼굴을 교환할 수 있습니다. 목소리를 위장할 수 있는 능력과 결합하여 GAN은 설득력 있어 보이는 가짜 비디오를 생성할 수 있습니다.[33]

적용들

주요 애플리케이션은 주식 촬영, 합성 데이터 세트, 가상 촬영, 컴퓨터 및 비디오 게임, 은밀한 허위 정보 공격의 영역에 속합니다.[34][32]일부 얼굴 인식 인공지능은 다른 인공지능이 생성한 이미지를 합성 데이터로 훈련에 사용합니다.[35]

게다가, 일부 연구는 "심리학자들상담가들공포증, 외상, 중독의 병력, 아스퍼거 증후군 또는 사회적 불안을 가진 고객들에게 치료를 전달하기 위해 아바타를 사용하기 시작했다"고 제안하고 있습니다.[36]자신의 디지털 모습을 닮은 아바타를 보면서 생기는 강한 기억 각인과 뇌 활성화 효과를 도플갱어 효과라고 합니다.[36]도플갱어 효과는 은밀한 허위 정보 공격이 공격 대상에 노출될 때 치유될 수 있습니다.

관련이슈

음성 합성어도비 크리에이티브 스위트와 구글의 프로토타입인 딥마인드 웨이브넷의 일부로 예정된 프로토타입인 음성 편집 및 생성 소프트웨어 어도비 보코의 2016년 도입 이후 실제 사람의 목소리를 녹음한 것과 완전히 구별할 수 없을 지경에 이르렀습니다.[37]다른 사람의 목소리를 훔치고 조작하는 능력은 명백한 윤리적 우려를 불러일으킵니다.

구글의 신경정보처리시스템(NeurIPS) 연구진2018년 학술대회에서 스피커 검증에서 텍스트와 음성 합성으로 학습을 전환하는 '스피커 검증에서 멀티스피커 텍스트와 음성 합성으로 학습 전달'이라는 작품을 발표했습니다. 5초의 음성 샘플에서 거의 모든 사람과 비슷하게 들리게 만들 수 있습니다.[39]

AI 훈련을 위해 이미지를 소싱하는 것은 훈련에 사용되는 사람들이 동의하지 않았기 때문에 사생활에 대한 의문을 제기합니다.[40]

디지털 사운드 유사 기술은 2019년 Symantec 연구자들이 범죄에 사용된 세 가지 사례를 알고 있듯이 범죄자들의 손에 넘어갔습니다.[41][42]

이것은 (2016년 기준) 기존 2D 비디오에서 거의 실시간으로 얼굴 표정위조할 수 있는 기술이 입증된 것과 맞물려 허위 정보 상황에 대한 스트레스를 증가시킵니다.[14]

참고 항목

참고문헌

  1. ^ IEEE 탐색기에서 입 모양 제어를 위한 물리 기반 근육 모델(멤버십 필요)
  2. ^ IEEE익스플로어에서 가상공간 원격회의로 실감나는 3D 얼굴애니메이션(멤버십 필요)
  3. ^ "Images de synthèse : palme de la longévité pour l'ombrage de Gouraud". 14 September 2008.
  4. ^ a b c Debevec, Paul (2000). "Acquiring the reflectance field of a human face". Proceedings of the 27th annual conference on Computer graphics and interactive techniques - SIGGRAPH '00. ACM. pp. 145–156. doi:10.1145/344779.344855. ISBN 978-1581132083. S2CID 2860203. Retrieved 24 May 2017.
  5. ^ Pighin, Frédéric. "Siggraph 2005 Digital Face Cloning Course Notes" (PDF). Retrieved 24 May 2017.
  6. ^ "St. Andrews Face Transformer". Futility Closet. 30 January 2005. Retrieved 7 December 2020.
  7. ^ a b West, Marc (4 December 2007). "Changing the face of science". Plus Magazine. Retrieved 7 December 2020.
  8. ^ Goddard, John (27 January 2010). "The many faces of race research". thestar.com. Retrieved 7 December 2020.
  9. ^ TED 토크 비디오에서는 두 개의 클립을 볼 수 있습니다. 하나는 실제 카메라로 촬영된 에밀리의 실제 모습과 다른 하나는 카메라의 시뮬레이션으로 촬영된 에밀리의 디지털 모습입니다. 이는 구분하기 어렵습니다.브루스 로멘(Bruce Lawmen)은 USC 라이트 스테이지 6을 사용하여 정지 위치에서 스캔되었으며 러닝머신에서 달리는 모습도 녹화되었습니다.많은 Bruce의 디지털 외모를 닮은 사람들이 TED 토크 비디오의 엔딩 순서를 보면서 유창하고 자연스럽게 달리고 있는 것을 볼 수 있습니다.
  10. ^ ReForm – Hollywood's Creating Digital Clones (youtube). The Creators Project. 24 May 2017.
  11. ^ Debevec, Paul. "Digital Ira SIGGRAPH 2013 Real-Time Live". Archived from the original on 21 February 2015. Retrieved 24 May 2017.
  12. ^ "Scanning and printing a 3D portrait of President Barack Obama". University of Southern California. 2013. Retrieved 24 May 2017.
  13. ^ Giardina, Carolyn (25 March 2015). "'Furious 7' and How Peter Jackson's Weta Created Digital Paul Walker". The Hollywood Reporter. Retrieved 24 May 2017.
  14. ^ a b Thies, Justus (2016). "Face2Face: Real-time Face Capture and Reenactment of RGB Videos". Proc. Computer Vision and Pattern Recognition (CVPR), IEEE. Retrieved 24 May 2017.
  15. ^ Suwajanakorn, Supasorn; Seitz, Steven; Kemelmacher-Shlizerman, Ira (2017), Synthesizing Obama: Learning Lip Sync from Audio, University of Washington, retrieved 2 March 2018
  16. ^ Roettgers, Janko (21 February 2018). "Porn Producers Offer to Help Hollywood Take Down Deepfake Videos". Variety. Retrieved 28 February 2018.
  17. ^ Takahashi, Dean (21 March 2018). "Epic Games shows off amazing real-time digital human with Siren demo". VentureBeat. Retrieved 10 September 2018.
  18. ^ Kuo, Lily (9 November 2018). "World's first AI news anchor unveiled in China". TheGuardian.com. Retrieved 9 November 2018.
  19. ^ Hamilton, Isobel Asher (9 November 2018). "China created what it claims is the first AI news anchor — watch it in action here". Business Insider. Retrieved 9 November 2018.
  20. ^ Harwell, Drew (30 December 2018). "Fake-porn videos are being weaponized to harass and humiliate women: 'Everybody is a potential target'". The Washington Post. Retrieved 14 March 2019. In September [of 2018], Google added "involuntary synthetic pornographic imagery" to its ban list
  21. ^ "NVIDIA Open-Sources Hyper-Realistic Face Generator StyleGAN". Medium.com. 9 February 2019. Retrieved 3 October 2019.
  22. ^ a b Paez, Danny (13 February 2019). "This Person Does Not Exist Is the Best One-Off Website of 2019". Inverse. Retrieved 5 March 2018.
  23. ^ "New state laws go into effect July 1". 24 June 2019.
  24. ^ a b "§ 18.2–386.2. Unlawful dissemination or sale of images of another; penalty". Virginia. Retrieved 1 January 2020.
  25. ^ "Relating to the creation of a criminal offense for fabricating a deceptive video with intent to influence the outcome of an election". Texas. 14 June 2019. Retrieved 2 January 2020. In this section, "deep fake video" means a video, created with the intent to deceive, that appears to depict a real person performing an action that did not occur in reality
  26. ^ Johnson, R.J. (30 December 2019). "Here Are the New California Laws Going Into Effect in 2020". KFI. iHeartMedia. Retrieved 1 January 2020.
  27. ^ Mihalcik, Carrie (4 October 2019). "California laws seek to crack down on deepfakes in politics and porn". cnet.com. CNET. Retrieved 14 October 2019.
  28. ^ "China seeks to root out fake news and deepfakes with new online content rules". Reuters.com. Reuters. 29 November 2019. Retrieved 8 December 2019.
  29. ^ Statt, Nick (29 November 2019). "China makes it a criminal offense to publish deepfakes or fake news without disclosure". The Verge. Retrieved 8 December 2019.
  30. ^ Synced (9 February 2019). "NVIDIA Open-Sources Hyper-Realistic Face Generator StyleGAN". Synced. Retrieved 4 August 2020.
  31. ^ StyleGAN 공개 쇼케이스 홈페이지
  32. ^ a b Porter, Jon (20 September 2019). "100,000 free AI-generated headshots put stock photo companies on notice". The Verge. Retrieved 7 August 2020.
  33. ^ "What Is a Deepfake?". PCMAG.com. March 2020. Retrieved 8 June 2020.
  34. ^ Harwell, Drew. "Dating apps need women. Advertisers need diversity. AI companies offer a solution: Fake people". Washington Post. Retrieved 4 August 2020.
  35. ^ "Neural Networks Need Data to Learn. Even If It's Fake". Quanta Magazine. 2023. Retrieved 18 June 2023.
  36. ^ a b Murphy, Samantha (2011). "Scientific American: Your Avatar, Your Guide" (.pdf). Scientific American / Uni of Stanford. Retrieved 29 June 2013.
  37. ^ "WaveNet: A Generative Model for Raw Audio". Deepmind.com. 8 September 2016. Archived from the original on 27 May 2017. Retrieved 24 May 2017.
  38. ^ "Adobe Voco 'Photoshop-for-voice' causes concern". BBC.com. BBC. 7 November 2016. Retrieved 5 July 2016.
  39. ^ Jia, Ye; Zhang, Yu; Weiss, Ron J. (12 June 2018), "Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis", Advances in Neural Information Processing Systems, 31: 4485–4495, arXiv:1806.04558, Bibcode:2018arXiv180604558J
  40. ^ Rachel Metz (19 April 2019). "If your image is online, it might be training facial-recognition AI". CNN. Retrieved 4 August 2020.
  41. ^ "Fake voices 'help cyber-crooks steal cash'". bbc.com. BBC. 8 July 2019. Retrieved 16 April 2020.
  42. ^ Drew, Harwell (16 April 2020). "An artificial-intelligence first: Voice-mimicking software reportedly used in a major theft". Washington Post. Retrieved 8 September 2019.