기초 모형
Foundation models기초 모델(기본 [1]모델이라고도 함)은 광범위한 다운스트림 작업에 적응할 수 있는 모델을 생성하는 방대한 양의 데이터에 대해 규모에 맞게 훈련된 [3][4]대규모 인공 지능(AI)[2] 모델입니다.기반 모델은 저명한 챗봇 및 기타 사용자 대면 AI에 전원을 공급하는 것과 같이 AI 시스템이 구축되는 방식에 큰 변화를 가져오는 데 도움이 되었습니다.스탠포드 인간 중심 인공지능 연구소(HAI)의 기반 모델 연구 센터(CRFM)는 이 [3]용어를 대중화했습니다.
기초 모델의 초기 예는 Google의 BERT를[5] 포함한 사전 훈련된 대형 언어 모델(LLM)과 OpenAI의 "GPT-n" 시리즈를 포함한 다양한 초기 GPT 기초 모델이었습니다. OpenAI OpenAI OpenAI이러한 광범위한 모델은 의료 [6]코드와 같은 다른 종류의 토큰 시퀀스를 사용하여 작업 및/또는 도메인별 모델에 사용될 수 있습니다.
텍스트 외에도 DALL-E, Flamingo,[7] Florence 및 NOOR [9]등 여러 시각 및 멀티모달 기반 모델이 제작되었습니다.시각적 기초 모델(VFM)은 정교한 작업별 모델을 개발하기 위해 텍스트 기반 [10]LLM과 결합되었습니다.
정의들
스탠포드 인간중심 인공지능 연구소(HAI)의 기반 모델 연구 센터(CRFM)는 2021년 8월에 "기반 모델"이라는 용어를 만들었는데, 이는 "광범위한 데이터에 대해 훈련된 모든 모델(일반적으로 규모에 맞는 자가 감독을 사용함)이 적용될 수 있는 모델(예:광범위한 다운스트림 [11]작업에 미세 조정)."이는 기존의 중복된 용어가 적절하지 않다는 그들의 관찰에 기초하여, "(큰) 언어 모델"은 언어에만 초점을 맞춘 것이 아니라, "자체 감독 모델"이 훈련 목표에 너무 구체적이었다는 점, 그리고 "사전 훈련된 모델"은 주목할 만한 모든 행동이 "사전 훈련"[12] 이후에 발생했음을 시사했습니다.많은 용어들을 고려한 후, 그들은 양식, 아키텍처 또는 구현보다는 의도된 기능(즉, 후속 추가 개발에 대한 어메니빌리티)을 강조하기 위해 "기초 모델"을 참조하십시오.
그들은 또한 이 개념이 심층 신경망과 자체 지도 학습을 기반으로 하기 때문에 진정으로 새로운 것은 아니지만, 최근 몇 년 동안 이 영역이 발전한 규모와 주어진 모델이 다른 목적으로 사용될 수 있는 가능성이 증가함에 따라 새로운 [11]용어가 필요하다고 주장했습니다.
기초 모델은 레이블이 지정되지 않은 대량의 데이터에 대해 훈련된 모델이 많은 [13][14]애플리케이션에 적용될 수 있는 "AI 시스템 구축을 위한 패러다임"입니다.기초 모델은 [15]"규모에 따라 광범위한 데이터에 대한 사전 교육을 통해 다양한 다운스트림 인지 작업에 적응(예: 미세 조정)되도록 설계되었습니다."
기초 모델의 주요 특징은 출현과 [11]균질화입니다.훈련 데이터는 사람에 의해 레이블이 지정되지 않기 때문에 명시적으로 인코딩되는 대신 모델이 나타납니다.예상하지 못한 속성이 나타날 수 있습니다.예를 들어, 대규모 언어 데이터 세트에 대해 훈련된 모델은 [16]명시적으로 프로그래밍되지 않고 자체 스토리를 생성하거나 산술을 수행하는 방법을 배울 수 있습니다.균질화는 동일한 방법이 많은 도메인에서 사용된다는 것을 의미하며, 이는 강력한 발전뿐만 아니라 "단일 [11]장애 지점"의 가능성도 허용합니다.
기초 모델 개인화
기초 모델은 대규모 데이터 세트에서 사전 교육을 받기 때문에 사용자가 관심을 가질 수 있는 특정 "개인" 개념을 처리할 수 없습니다.일련의 방법은 전체 모델을 재교육하지 않고 개인적이고 특정한 항목으로 기초 모델을 보강하도록 설계되었습니다.예를 들어 퓨샷 이미지 검색의 경우 어휘에 [17]새로운 개념을 추가하여 비전 언어 기반 모델(CLIP)을 적용하는 방법을 보여주었습니다.텍스트 대 이미지 생성의 경우 텍스트[18] 반전이라는 접근 방식을 유사하게 사용하여 나중에 기초 모델이 이미 익숙한 개념과 함께 생성될 수 있는 새로운 개념을 시스템에 가르칠 수 있습니다.
기회와 위험
2021 arXiv 보고서는 "언어, 비전, 로봇 공학, 추론 및 인간 상호 작용", "모델 아키텍처, 훈련 절차, 데이터, 시스템, 보안, 평가 및 이론"과 같은 기술적 원칙, 예를 들어 법률, 의료, 의료 분야에서의 적용에 관한 기초 모델의 능력을 나열했습니다.교육과 사회에 미치는 잠재적 영향을 포함하여 "불평등, 오용, 경제적 및 환경적 영향, 법적 및 윤리적 고려".[11]
이코노미스트지의 기초 모델에 대한 기사는 "일부는 기술의 부주의한 확산이 경제적, 정치적 [16]힘을 더욱 집중시킬 것이라고 우려한다"고 지적합니다.
레퍼런스
- ^ https://time.com/6271657/a-to-z-of-artificial-intelligence/
- ^ https://analyticsindiamag.com/self-supervised-learning-vs-semi-supervised-learning-how-they-differ/
- ^ a b "Introducing the Center for Research on Foundation Models (CRFM)". Stanford HAI. Retrieved 11 June 2022.
- ^ Goldman, Sharon (2022-09-13). "Foundation models: 2022's AI paradigm shift". VentureBeat. Retrieved 2022-10-24.
- ^ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What we know about how BERT works". arXiv:2002.12327 [cs.CL].
- ^ Steinberg, Ethan; Jung, Ken; Fries, Jason A.; Corbin, Conor K.; Pfohl, Stephen R.; Shah, Nigam H. (January 2021). "Language models are an effective representation learning technique for electronic health record data". Journal of Biomedical Informatics. 113: 103637. doi:10.1016/j.jbi.2020.103637. ISSN 1532-0480. PMC 7863633. PMID 33290879.
- ^ Tackling multiple tasks with a single visual language model, 28 April 2022, retrieved 13 June 2022
- ^ Yuan, Lu; Chen, Dongdong; Chen, Yi-Ling; Codella, Noel; Dai, Xiyang; Gao, Jianfeng; Hu, Houdong; Huang, Xuedong; Li, Boxin; Li, Chunyuan; Liu, Ce; Liu, Mengchen; Liu, Zicheng; Lu, Yumao; Shi, Yu; Wang, Lijuan; Wang, Jianfeng; Xiao, Bin; Xiao, Zhen; Yang, Jianwei; Zeng, Michael; Zhou, Luowei; Zhang, Pengchuan (2022). "Florence: A New Foundation Model for Computer Vision". arXiv:2111.11432 [cs.CV].
- ^ "Technology Innovation Institute Announces Launch of NOOR, the World's Largest Arabic NLP Model".
- ^ https://arxiv.org/pdf/2303.04671.pdf
- ^ a b c d e Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik; Buch, Shyamal; Card, Dallas; Castellon, Rodrigo; Chatterji, Niladri; Chen, Annie; Creel, Kathleen; Davis, Jared Quincy; Demszky, Dora; Donahue, Chris; Doumbouya, Moussa; Durmus, Esin; Ermon, Stefano; Etchemendy, John; Ethayarajh, Kawin; Fei-Fei, Li; Finn, Chelsea; Gale, Trevor; Gillespie, Lauren; Goel, Karan; Goodman, Noah; Grossman, Shelby; Guha, Neel; Hashimoto, Tatsunori; Henderson, Peter; Hewitt, John; Ho, Daniel E.; Hong, Jenny; Hsu, Kyle; Huang, Jing; Icard, Thomas; Jain, Saahil; Jurafsky, Dan; Kalluri, Pratyusha; Karamcheti, Siddharth; Keeling, Geoff; Khani, Fereshte; Khattab, Omar; Koh, Pang Wei; Krass, Mark; Krishna, Ranjay; Kuditipudi, Rohith; Kumar, Ananya; Ladhak, Faisal; Lee, Mina; Lee, Tony; Leskovec, Jure; Levent, Isabelle; Li, Xiang Lisa; Li, Xuechen; Ma, Tengyu; Malik, Ali; Manning, Christopher D.; Mirchandani, Suvir; Mitchell, Eric; Munyikwa, Zanele; Nair, Suraj; Narayan, Avanika; Narayanan, Deepak; Newman, Ben; Nie, Allen; Niebles, Juan Carlos; Nilforoshan, Hamed; Nyarko, Julian; Ogut, Giray; Orr, Laurel; Papadimitriou, Isabel; Park, Joon Sung; Piech, Chris; Portelance, Eva; Potts, Christopher; Raghunathan, Aditi; Reich, Rob; Ren, Hongyu; Rong, Frieda; Roohani, Yusuf; Ruiz, Camilo; Ryan, Jack; Ré, Christopher; Sadigh, Dorsa; Sagawa, Shiori; Santhanam, Keshav; Shih, Andy; Srinivasan, Krishnan; Tamkin, Alex; Taori, Rohan; Thomas, Armin W.; Tramèr, Florian; Wang, Rose E.; Wang, William; Wu, Bohan; Wu, Jiajun; Wu, Yuhuai; Xie, Sang Michael; Yasunaga, Michihiro; You, Jiaxuan; Zaharia, Matei; Zhang, Michael; Zhang, Tianyi; Zhang, Xikun; Zhang, Yuhui; Zheng, Lucia; Zhou, Kaitlyn; Liang, Percy (18 August 2021). On the Opportunities and Risks of Foundation Models (Report). arXiv:2108.07258.
- ^ https://hai.stanford.edu/news/reflections-foundation-models
- ^ "Stanford CRFM". Retrieved 10 June 2022.
- ^ "What are foundation models?". IBM Research Blog. 9 February 2021. Retrieved 10 June 2022.
- ^ Fei, Nanyi; Lu, Zhiwu; Gao, Yizhao; Yang, Guoxing; Huo, Yuqi; Wen, Jingyuan; Lu, Haoyu; Song, Ruihua; Gao, Xin; Xiang, Tao; Sun, Hao; Wen, Ji-Rong (December 2022). "Towards artificial general intelligence via a multimodal foundation model". Nature Communications. 13 (1): 3094. arXiv:2110.14378. Bibcode:2022NatCo..13.3094F. doi:10.1038/s41467-022-30761-2. ISSN 2041-1723. PMC 9163040. PMID 35655064.
- ^ a b "Huge "foundation models" are turbo-charging AI progress". The Economist. ISSN 0013-0613. Retrieved 2022-10-24.
- ^ Cohen, Niv; Gal, Rinon; Meirom, Eli A.; Chechik, Gal; Atzmon, Yuval (2022-10-23). ""This Is My Unicorn, Fluffy": Personalizing Frozen Vision-Language Representations". Computer Vision – ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XX. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer-Verlag. 13680: 558–577. arXiv:2204.01694. doi:10.1007/978-3-031-20044-1_32. ISBN 978-3-031-20043-4.
- ^ Gal, Rinon; Alaluf, Yuval; Atzmon, Yuval; Patashnik, Or; Bermano, Amit H.; Chechik, Gal; Cohen-Or, Daniel (2022-08-02). "An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion". arXiv:2208.01618 [cs.CV].