스타타

Stata
스타타
Stata logo med blue.png
Interface large wwwsa.png
Windows의 Stata 17
원저작자윌리엄[1] 굴드
개발자스태타코프
초기 릴리즈1985년(1985년)
안정된 릴리스
2021년 4월 20일 17.0, 15개월 전(2021-04-20)
기입처C
운영 체제Windows, macOS, Linux
유형통계 분석
수치 분석
면허증.독자 사양
웹 사이트www.stata.com

Stata(/stesteət,/,[2] STAY-ta, 또는 /ststét//, 때로는 STATATA로[3][4] 스타일 지정)는 데이터 조작, 시각화, 통계 및 자동 보고서 작성을 위해 StataCorp에서 개발한 범용 통계 소프트웨어 패키지입니다.그것은 생물의학, 역학, 사회학,[5] 과학을 포함한 많은 분야의 연구자들에 의해 사용된다.

Stata는 캘리포니아의 Computing Resource Center에서 처음 개발되었으며 1985년에 [6]첫 번째 버전이 출시되었습니다.1993년 회사는 텍사스 주 College Station으로 이전하여 Stata Corporation(현재의 StataCorp)[1]으로 이름을 변경하였다.2003년의 주요 릴리스에는 모든 [6]명령어에 대한 새로운 그래픽 시스템과 대화상자가 포함되어 있습니다.그 이후, 2년에 한 [7]번 새로운 버전이 출시되고 있다.현재 버전은 2021년 [8]4월에 출시된 Stata 17입니다.

기술 개요 및 용어

사용자 인터페이스

Stata는 작성부터 항상 통합된 명령줄 인터페이스를 채택하고 있습니다.버전 8.0부터 Stata는 메뉴와 대화상자사용하여 많은 내장 명령어에 대한 액세스를 제공하는 Qt 프레임워크 기반의 그래픽 사용자 인터페이스를 포함했습니다.데이터 세트는 스프레드시트 형식으로 보거나 편집할 수 있습니다.버전 11부터는 데이터 브라우저 또는 편집기를 여는 동안 다른 명령을 실행할 수 있습니다.

데이터 구조 및 스토리지

버전 [9]16이 출시되기 전까지 Stata는 한 번에 하나의 데이터 세트만 열 수 있었습니다.Stata를 사용하면 데이터에 데이터 유형을 유연하게 할당할 수 있습니다.그것의.compress명령어는 메모리 사용량이 적은 데이터 유형에 자동으로 데이터를 재할당하여 정보를 손실하지 않습니다.Stata는 4바이트가 아닌 1바이트 또는 2바이트만을 차지하는 정수 스토리지 유형을 사용하며 부동소수점 번호에는 2배 정밀도(8바이트)가 아닌 단정도(4바이트)가 기본입니다.

Stata의 데이터 형식은 항상 표 형식입니다.통계분석에서는 표 형식의 데이터 열을 변수로 나타냅니다.

데이터 포맷 호환성

Stata는 다양한 형식으로 데이터를 가져올 수 있습니다.여기에는 ASCII 데이터 형식(CSV 또는 데이터뱅크 형식 )과 스프레드시트 형식(다양한 Excel 형식 포함)이 포함됩니다.

모든 Stata 릴리스에 새로운 데이터 집합 형식이 포함되어 있지는 않지만 Stata의 고유한 파일 형식은 시간이 지남에 따라 변화했습니다.Stata의 모든 버전은 이전 데이터 집합 형식을 모두 읽을 수 있으며 다음을 사용하여 현재 및 최신 데이터 집합 형식을 모두 쓸 수 있습니다.saveold명령어를 [10]입력합니다.따라서 현재 Stata 릴리스는 이전 버전으로 작성된 데이터 세트를 항상 열 수 있지만 이전 버전은 최신 형식 데이터 세트를 읽을 수 없습니다.

Stata는 fdausefdasave 명령을 사용하여 SAS XPORT 형식 데이터 세트를 기본적으로 읽고 쓸 수 있습니다.

gretl을 포함한 일부 다른 계량형 애플리케이션은 Stata 파일 형식을 직접 가져올 수 있습니다.

역사

오리진스

스타타의 개발은 1984년 윌리엄 (빌) 굴드에 의해 시작되었고 후에 션 베켓티에 의해 시작되었다.이 소프트웨어는 원래 SYSTATMicroTSP[6]같은 개인용 컴퓨터의 통계 프로그램과 경쟁하기 위한 것이었다.Stata는 처음에 DOS 운영 체제를 실행하는 PC를 위해 C 프로그래밍 언어로 작성되었습니다.첫 번째 버전은 1985년에 44개의 [6]명령어로 출시되었습니다.

Stata 1.0 및 Stata 1.1 명령어
추가하다 디르 인파일 줄거리. 스풀
하다 입력 질문하다 요약하다
타고 떨어지다 라벨. 퇴보하다 표로 작성하다
포획. 지우다 목록. 이름을 바꾸다 시험
확인. 퇴장 매크로 교체하다 유형
개종시키다 확대한다. 합병하다 달려. 사용하다
상관하다 포맷 수정하다 절약하다
세어보세요 생성하다 세트
묘사하라 도와 주세요. 아웃파일 종류

발전

1985년부터 2021년 사이에 Stata의 주요 릴리스가 17회 있었고, 메이저 [7]릴리스 간에 코드 및 문서 업데이트가 추가로 이루어졌습니다.초기에는 추가 Stata 프로그램 세트가 "킷"으로 판매되거나 지원 Disk로 배포되기도 했습니다.1999년 Stata 6의 출시와 함께,update[6]웹을 통해 사용자에게 전달되기 시작했습니다.Stata의 초기 릴리스는 DOS 운영체제용이었다.그 이후로 Stata 버전은 Linux 디스트리뷰션, WindowsMacOS[6]같은 Unix 버전을 실행하는 시스템용으로 출시되었습니다.모든 Stata 파일은 플랫폼에 의존하지 않습니다.

36년의 [11][12]역사를 통해 수백 개의 명령어가 Stata에 추가되었습니다.확장성, 플랫폼 독립성, 활성 사용자 커뮤니티 [6]등 특정 개발이 특히 중요하며 오늘날 사용자 경험을 지속적으로 형성하고 있습니다.

확장성

program명령어는 Stata 1.2에서 구현되어 사용자가 직접 [6][13]명령을 추가할 수 있게 되었습니다.ado-files는 Stata 2.1에 이어 사용자가 작성한 프로그램을 자동으로 메모리에 로드할 수 있게 되었습니다.사용자가 작성한 많은 애드오파일은 Boston College가 주최하는 [Statistical Software Components Archive]에 제출됩니다.StataCorp가 추가한 것은ssc명령어를 사용하여 커뮤니티에서 제공하는 프로그램을 Stata [14]내에 직접 추가할 수 있습니다.Stata의 최신 에디션에서는 사용자가 명령을 사용하여 Python과 R 스크립트를 호출할 수 있을 뿐만 아니라 Jupyter 노트북과 같은 Python IDE가 Stata [15][16]명령을 가져올 수 있습니다.

사용자 커뮤니티

Stata의 활성 사용자 [6]커뮤니티에 의해 많은 중요한 개발이 시작되었습니다.Stata Technical Bulletin은 1991년에 도입되어 1년에 6번 발행되었습니다.그것은 2001년에 동료 검토된 Stata Journal로 재출간되었다. Stata의 효과적인 사용을 위한 지역사회에 기여하는 명령과 팁을 포함하는 분기 간행물이다.1994년에는 코딩과 기술적 문제를 공동으로 해결하는 허브로 listserv가 시작되었고, 2014년에는 웹 포럼으로 전환되었습니다.1995년에 Statacorp는 매년 열리는 사용자 및 개발자 회의를 조직하기 시작했습니다.미국에서 열리는 연례 Stata Conference만이 StataCorp에 의해 주최된다.그 외의 유저 그룹 미팅은, 미국(Stata Conference), 영국, 독일, 및 이탈리아에서는 매년 개최하고 있습니다만, 그 외의 나라에서는 빈도가 낮습니다.현지 Sta 디스트리뷰터는 자국 내에서 사용자 그룹 회의를 주최합니다.

표: Stata 출시 및 개발
버전 발매일 새로운 기능 또는 확장 기능 선택
1.0 1985년 1월
  • 초기 릴리즈
  • 44개의 명령어
1.1 1985년 2월
  • 버그 수정
1.2 1985년 5월
  • 새로운 메뉴 시스템
  • 온라인 도움말 향상
  • keep
1.3 1985년 8월
  • 스태타 / 그래픽스
  • program
1.4 1986년 8월
  • 새로운 문서
  • 포맷 완료infile
1.5 1987년 2월
  • anova
  • logit,probit
2.0 1988년 6월
  • 새로운 그래픽스
  • 문자열 변수
  • 생존 분석:콕스 카플란마이어
  • 단계적 회귀 분석
2.1 1990년 9월
  • 바이트 변수
  • 인자 분석
  • 임시 파일
  • reshape
3.0 1992년 3월
  • logistic,ologit,oprobit,clogit,mlogit
  • tobit,cnreg,rreg,qreg,weibull,ereg
  • epitab
  • pweights
3.1 1993년 8월
  • mvreg,sureg,heckman,nlreg,areg,canon
  • nbreg
  • 구속 선형 회귀
  • ml
  • codebook
4.0 1995년 1월
  • xtreg
  • glm
5.0 1996년 10월
  • xtgee,xtprobit
  • prais,newey,intreg
  • 측량 추정 명령
  • fracpoly
  • st확장된
6.0 1999년 1월
  • 웹 대응
  • 신규ml
  • 시계열 연산자
  • arima,arch
  • st고쳐 썼다
7.0 2000년 12월
  • frailty
  • xtabond
  • 클러스터 분석
  • nlogit
  • roc
  • SMCL
8.0 2003년 1월
  • 그래픽스
  • 확장 GUI, 모든 명령에서 사용 가능한 대화 상자
  • manova
  • 추가 조사
  • more 시계열(VAR, SVAR)
  • 더 많은 GLLAMM 내부화
8.1 2003년 7월
  • 갱신했다ml
8.2 2003년 10월
  • 그래픽스 변경
9.0 2005년 4월
  • 마타 매트릭스 프로그래밍 언어
  • 측량 기능
  • 선형 혼합 모형
  • 다원 프로빗 모델
9.1 2005년 9월
9.2 2006년 4월
10.0 2007년 6월
  • 그래프 에디터
  • 복잡한 내포 오차 성분이 있는 로지스틱 및 포아송 모형
10.1 2008년 8월
11.0 2009년 7월
  • 요인 변수
  • marginspostestimation 명령어
  • 다중 귀속
11.1 2010년 6월
11.2 2011년 3월
12.0 2011년 7월
  • 자동 메모리 관리
  • 구조 방정식 모델링
12.1 2012년 1월
13.0 2013년 6월
  • 긴 끈
  • 치료 효과
13.1 2013년 10월
14.0 2015년 4월
  • Unicode 지원
  • 베이지안 통계 분석
14.1 2015년 10월
14.2 2016년 9월
15.0 2017년 6월
  • 잠복 클래스 분석
  • PDF 및 Word 문서
  • 그래프의 색상 투명도 또는 불투명도
15.1 2017년 11월
16.0 2019년 6월
  • 프레임(메모리에 데이터셋 추가)
  • 라소 회귀
  • 자동 리포트
  • 최신 선택 모델
16.1 2020년 2월
17.0 2021년 4월
  • 갱신했다tables명령어
  • 베이스 계량

소프트웨어 제품

Stata에는 Stata/MP, Stata/SE, Stata/BE 및 Numberics by Stata의 [17]4가지 빌드가 있습니다.Stata/MP는 특정 명령어를 내장 병렬 처리할 수 있는 반면 Stata/SE와 Stata/BE는 병목현상이 발생하며 사용을 단일 [18]코어로만 제한합니다.Stata/MP는 SE 또는 BE [18]버전에 비해 4개의 CPU 코어로 병렬 프로세스를 실행할 때 특정 명령을 이론적으로 최대 효율의 약 60%인 약 2.4배 더 빠르게 실행합니다.Stata별 숫자를 사용하면 Stata 명령을 웹으로 통합할 수 있습니다.

SE 버전과 BE 버전은 데이터셋이 사용할 수 있는 메모리 양이 다릅니다.Stata/MP는 100억 ~ 200억 개의 관측치와 최대 120,000개의 변수를 저장할 수 있지만 Stata/SE 및 Stata/BE는 최대 21억 4천만 개의 관측치를 저장하고 각각 32,767개의 변수와 2,048개의 변수를 처리합니다.모형의 최대 독립 변수 수는 Stata/MP 변수 65,532개, Stata/SE 변수 10,998개, Stata/BE [17]변수 798개입니다.

Stata의 가격 책정 및 라이센스는 비즈니스, 정부/비영리, 교육 또는 학생 등 의도된 용도에 따라 달라집니다.단일 사용자 라이센스는 매년 갱신되거나 영구 갱신됩니다.기타 라이센스 유형에는 동시 사용자가 사용할 수 있는 단일 라이센스, 사이트 라이센스, 대량 가격 책정용 볼륨 단일 사용자 또는 학생 [19]연구소가 있습니다.

코드 예시

다음 명령어 세트는 단순한 데이터 [20]관리를 중심으로 합니다.

sysse auto // 포함된 자동 데이터 세트 찾아보기 // 데이터 세트 찾아보기(Data Editor  열기) description // 데이터 세트 및 관련 변수 요약 // 숫자 변수 코드북에 대한 요약 정보 // 형식(문자열) 및 형식(숫자) 변수대한 요약 정보 browse if missing(rep78) // 변수 rep78 목록대해 결측 데이터가 있는 관측치만 찾습니다. make if missing(rep78) // 변수 rep78에 대한 결측 데이터가 있는 차량 목록

다음 일련의 명령어는 기술 통계로 넘어갑니다.

summary price, detail // 가변 가격표대한 상세 요약 통계 // 가변 외부형식 rep78대한 단방향 빈도 표 // 변수 rep78에 대한 쌍방향 빈도 표 // foreign == 1 // 자동차외부형식경우 mpg에 대한 요약 정보("==" sign tests for equality) by foreign, sort: summary mpg // 위와 같이 summary mpg // 그러나 "by" 프레픽스를 사용합니다.tabulate foreign, summary(mpg) // 위와 같이 하지만 tabulate 명령사용합니다. 

간단한 가설 검정:

ttest mpg, by(외산) // 국산차와 외제차의 평균 차이 T 검정

데이터 그래프 작성:

twoway(산란 mpg 무게) // mpg와 무게 twoway(산란 mpg 무게)의 관계를 나타내는 산점도 by(외산, 합계) // 국산, 외산 및 모든 자동차에 대한 3개의 그래프

선형 회귀 분석:

generate wtsq = weight ^2 // weight 제곱 회귀 mpg weight wtsq foreign, vce(foreign) // weight, foreign predict mpghat // mpghat예측값을 포함하는 새로운 변수 생성(line mpghat weight, sort by(foreign) // 그래프 데이터 및 적합선
Stata 17의 자동 데이터 집합의 회귀 그래프

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b Newton, H. Joseph (2005). "A conversation with William Gould". The Stata Journal. 5 (1): 19–31. doi:10.1177/1536867X0500500103. S2CID 118322998.
  2. ^ Cox, Nicholas J. "Statalist FAQ". Statalist: The Stata Forum. Retrieved 24 April 2021.
  3. ^ "STATA Data Manipulation: Basics and Applications 7" (PDF). Iuj.ac.jp. Retrieved 27 January 2022.
  4. ^ Suárez, Erick; Pérez, Cynthia; Nogueras, Graciela; Moreno-Gorrín, Camille (2016). biostatistics-in-public-health-using-stata.
  5. ^ "Disciplines". Stata: Software for Statistics and Data Science. Retrieved 2021-04-21.
  6. ^ a b c d e f g h i Cox, Nicholas J. (2005). "A brief history of Stata on its 20th anniversary". The Stata Journal. 5 (1): 2–18. doi:10.1177/1536867X0500500102. S2CID 118366843. Retrieved 22 April 2021.
  7. ^ a b Gould, William W.; Cox, Nicholas J. "When was Stata first released? When were later versions released?". Stata: Software for Statistics and Data Science. Retrieved 22 April 2021.
  8. ^ "What's new in Stata?". Stata: Software for Statistics and Data Science. StataCorp. Retrieved 22 April 2021.
  9. ^ "Data frames: multiple datasets in memory". Stata.com. Retrieved 2020-08-13.
  10. ^ "Stata 16 help for save". Stata.com.
  11. ^ Stata Glossary and Index: Release 17 (PDF). College Station, TX: Stata Press. pp. 1–50. ISBN 1-59718-283-4.
  12. ^ "Stata features". Stata: Software for Statistics and Data Science. StataCorp. Retrieved 24 April 2021.
  13. ^ "program - Define and manipulate programs" (PDF). Stata: Software for Statistics and Data Science. Stata Press. Retrieved 24 April 2021.
  14. ^ "ssc - Install and uninstall packages from SSC" (PDF). Stata: Software for Statistics and Data Science. Stata Press. Retrieved 24 April 2021.
  15. ^ "Use Python and Stata together Stata".
  16. ^ "How to Switch Your Workflow from Stata to R, One Bit at a Time · Frederick Solt". Fsolt.org. Retrieved 27 January 2022.
  17. ^ a b "Which Stata is right for me?". Stata: Software for Statistics and Data Science. Retrieved 23 April 2021.
  18. ^ a b "Parallel Stata". Harvard Business School.
  19. ^ "Order Stata software". Stata: Software for Statistics and Data Science. StataCorp. Retrieved 25 April 2021.
  20. ^ Getting Started with Stata for Windows (PDF) (Release 17 ed.). College Station, TX: Stata Press. pp. 1–19. ISBN 1-59718-334-2. Retrieved 25 April 2021.

추가 정보

외부 링크