순위-크기 분포

Rank–size distribution
국가 인구의 순위 분포는 두 "킹"의 경우를 제외하고 확장된 지수 분포[1] 따른다.중국인도.

순위-크기 분포는 크기 순서가 줄어드는 순위별 크기 분포다.예를 들어 데이터 세트가 크기가 5, 100, 5, 8인 항목으로 구성된 경우, 순위 크기 분포는 100, 8, 5, 5(순위 1~4위)이것은 소스 데이터가 주파수 분포에서 나온 경우 순위-주파수 분포라고도 한다.이것들은 도시 크기나 단어 빈도와 같이 데이터가 규모에 따라 크게 다를 때 특히 흥미롭다.이러한 분포는 종종 전력 법칙 분포 또는 최소한 특정 범위의 순위에 대해 대략적으로 지수 함수 또는 포물선 프랙탈 분포와 같이 잘 알려지지 않은 분포들을 따른다. 아래를 참조하십시오.

순위-크기 분포는 확률 분포누적 분포 함수가 아니다.오히려 주어진 순위에 원소의 크기를 부여하는 역순의 이산형(누적분포 역순)이다.

단순 순위 분포

도시 인구의 경우, 한 국가, 지역 또는 세계에서의 결과적인 분포는 그것의 가장 큰 도시로 특징지어질 것이며, 다른 도시들은 그것의 각각의 크기가 감소하고, 처음에는 빠른 속도로 그리고 다음에는 더 느리게 될 것이다.이것은 몇 개의 대도시와 훨씬 더 많은 수의 도시들이 더 작은 주문을 하게 만든다.예를 들어, 3위 도시는 한 나라의 가장 큰 도시의 3분의 1을 차지하고, 4위 도시는 가장 큰 도시의 4분의 1을 차지하게 된다.[2]

어떤 로그-선형 요인이든 순위가 매겨지면 순위는 루카스 숫자를 따르며, 순서는 순차적 가법 번호 1, 3, 4, 7, 11, 18, 29, 47, 76, 123, 199 등으로 구성된다.보다 유명한 피보나치 수열처럼 각 숫자는 약 1.618(황금비)로 앞의 숫자에 곱한다.예를 들어, 위의 시퀀스에서 세 번째 용어인 4는 약 1.6183 또는 4.236이고, 네 번째 용어인 7은 약 1.6184 또는 6.854이며, 여덟 번째 용어인 47은 약 1.6188 또는 46.979이다.값이 높을수록 수치가 수렴한다.등각형 나선은 때때로 그러한 시퀀스를 시각화하는 데 사용된다.

분할

위키백과 단어 빈도 그림, 뚜렷한 행동을 가진 세 개의 세그먼트를 보여준다.

순위-크기(또는 순위-빈도) 분포는 종종 범위로 분할된다.이는 특히 시장 세분화를 위해 다소 자의적이거나 외부 요인에 의해 종종 행해지지만, 등급이 달라짐에 따라 뚜렷한 행동 때문에 행해질 수도 있다.

가장 단순하고 일반적으로 분포는 머리꼬리라고 불리는 두 조각으로 분할될 수 있다.분포를 세 조각으로 쪼개면 세 번째(중간) 조각은 일반적으로 중간, 배,[4] 몸통,[3][5] 몸통 등 여러 가지 용어가 있다.[6]이것들은 종종 형용사가 첨가되는데, 가장 현저하게 긴 꼬리, 또한 뚱뚱한 배,[4] 뭉툭한 중간 등등이 있다.좀 더 전통적인 용어로, 이것들은 상위 계층, 중간 계층, 하위 계층이라고 불릴 수 있다.

이러한 세그먼트의 상대적 크기와 가중치(각 세그먼트의 순위 수와 주어진 세그먼트의 총 모집단 비율)는 확률 분포의 도 또는 첨도와 유사하게 분포의 특성을 정성적으로 나타낸다.즉, 몇 명의 상위 멤버(녹음된 음악 산업의 수익처럼 헤드 헤비(head-heavy))가 지배하고 있는가, 아니면 다수의 소규모 멤버(tail-heavy, 인터넷 검색 질의와 같은)가 지배하고 있는가, 아니면 다른 방식으로 유통되고 있는가?실제로, 이것은 전략을 결정한다: 어디에 관심을 집중해야 하는가?

이러한 구분은 다양한 이유로 이루어질 수 있다.예를 들어, 인터넷 커뮤니티에서는 커뮤니티 참가자의 90%가 콘텐츠만 보고, 참여자의 9%가 콘텐츠를 편집하며, 참여자의 1%가 적극적으로 새로운 콘텐츠를 만든다는 90–9–1 원칙에서와 같이, 그것들은 모집단의 서로 다른 속성에서 발생할 수 있다.또 다른 예로, 마케팅에서 사람들은 실용적으로 머리를 개인 전화와 같이 개인화된 관심을 받는 모든 구성원으로 간주할 수 있다; 반면에 꼬리는 예를 들어 양식 서신을 받는 것과 같이 개인화된 관심을 받지 못하는 다른 모든 것이다; 그리고 줄은 단순히 자원이 허용하는 지점에서 설정된다.es 비즈니스 감각은 멈춰야 한다.

순수하게 정량적으로 분포를 머리와 꼬리로 나누는 전통적인 방식은 상위 20%(머리)가 전체 인구의 80%를 차지하는 80:20 파레토 원칙에서처럼 전체 인구의 - p 스타일 를 차지하는 대열의 첫 p 부분을 머리와 꼬리로 나누는 것이다.정확한 컷오프는 분포에 따라 달라지며, 각 분포에는 그러한 컷오프 지점이 하나씩 있으며, 전력 법칙의 경우 Pareto 지수로 계산할 수 있다.

등급이 달라짐에 따라 분포의 실제 행동 변화로 인해 세그먼트가 자연스럽게 발생할 수 있다.가장 흔한 것은 킹 효과인데, 국가 인구와 영어 위키백과의 가장 일반적인 단어에서 위와 같이 상위 소수의 항목들의 행동이 나머지 항목들의 패턴에 맞지 않는다.더 높은 계급의 경우, 행동은 어느 시점에 바뀔 수 있고, 지역마다 다른 관계에 의해 잘 변형될 수 있다; 전체적으로 한 조각의 기능이다.예를 들어, 서로 다른 두 개의 전력 법칙이 서로 다른 지역에 더 잘 맞으면, 전체적인 관계에 대해 부서진 전력 법칙을 사용할 수 있다; 영어 위키백과(위)의 빈도 또한 이것을 보여준다.

선호 애착(직관적으로 '부자가 부자가 된다'와 '성공하면 성공을 낳는다'는)에서 비롯되는 율-시몬 분포는 깨진 전력 법칙을 시뮬레이션하고 단어 빈도 대 순위 분포의 '매우 잘 포착'하는 것으로 나타났다.[7]다른 종에서 개체수 대 서열을 설명하려 한 데서 비롯됐다.그것은 또한 도시 인구 대 계급에 더 잘 맞는 것으로 나타났다.[8]

순위-크기 규칙

순위-크기 법칙(또는 법)은 도시 크기의 분포, 사업체의 크기, 입자의 크기(모래 등), 강의 길이, 단어 사용 빈도, 개인 간의 부를 포함한 많은 현상의 현저한 규칙성을 설명한다.

모두 집프의 법칙, 율레 분배, 파레토 분배권력 법칙을 따르는 현실적 관찰이다.특정 국가나 전 세계의 도시의 인구 규모를 순위를 매기고 순위 및 도시 인구의 자연 로그 수를 계산하면 결과 그래프가 로그 선형을 보여준다.이것이 순위 분포다.[9]

이론적 근거

한 연구는, 계급 크기의 규칙이 실제 현상의 "그림자" 또는 우연의 일치 측정이기 때문에 "작동한다"고 주장한다.[10]따라서 순위 크기의 진정한 가치는 정확한 수학적 척도가 아니라(특히 10등급 이하에서 다른 힘법 공식들이 더 정확하기 때문에), 전력법을 식별하기 위한 손쉬운 척도나 "엄지의 법칙"이다.데이터의 순위를 제시했을 때, 3위 변수는 약 3분의 1의 값이 가장 높은 변수의 값인가?아니면 반대로 가장 순위가 높은 변수가 10위 변수의 약 10배에 해당하는가?만약 그렇다면, 계급제 규제는 또 다른 권력법 관계를 알아내는 데 도움이 될 수도 있다.

단순한 순위 크기 분포에 대한 알려진 예외

Zipf의 법칙은 많은 경우에 잘 작동하지만, 그것은 많은 나라에서 가장 큰 도시들과 맞지 않는 경향이 있다; 한 종류의 편차는 킹 효과라고 알려져 있다.2002년의 한 연구는 73개국 중 53개국에서 Zipf의 법이 거부되었다는 것을 발견했는데, 이것은 무작위적인 기회에 근거했을 때 기대했던 것보다 훨씬 많은 것이다.[11]이 연구는 또한 파레토 지수의 변동은 규모의 경제를 위한 대용물이나 운송 비용과 같은 경제 지리 변수보다 정치적 변수에 의해 더 잘 설명된다는 것을 발견했다.[12]2004년의 한 연구는 집프의 법이 6개국의 5대 도시에서 잘 작동하지 않는다는 것을 보여주었다.[13]부유한 나라들에서는 그 분포가 예상보다 더 평탄했다.예를 들어, 미국에서 가장 큰 도시인 뉴욕시는 2위 로스앤젤레스의 두 배 이상의 인구를 가지고 있지만, 두 도시의 대도시 지역(또한 미국에서 두 번째로 큰 도시)은 인구가 훨씬 더 가깝다.대도시권 인구에서 뉴욕은 LA의 1.3배에 불과하다.다른 나라에서는, 가장 큰 도시가 예상보다 훨씬 더 많이 지배할 것이다.예를 들어 콩고민주공화국의 수도 킨샤사는 제2의 도시인 루붐바시보다 8배 이상 크다.가장 작은 도시들을 포함한 도시들의 전체 분포를 고려할 때, 순위 체계는 유지되지 않는다.대신, 분포는 로그 정규 분포를 따른다.이것은 기브랏의 비례성장 법칙에서 따온 것이다.

예외가 너무나 쉽게 발견되기 때문에 오늘날 도시 분석을 위한 규칙의 기능은 여러 나라의 도시 시스템을 비교하는 것이다.계급규정은 도시적 우위성이 확립되는 공통의 기준이다.미국이나 중국 같은 분포는 영장류의 패턴을 보여주지 않지만, 지배적인 '제1의 도시'를 가진 나라들은 정반대의 방식으로 계급 규모의 규칙과 분명히 다르다.따라서, 이 규칙은 가장 큰 도시가 보여주는 지배력의 정도에 따라 국가(또는 지역) 도시 체제를 분류하는 데 도움이 된다.예를 들어, 영장류 도시가 있는 나라들은 전형적으로 그 도시 패턴을 설명하는 식민지 역사를 가지고 있다.일반적인 도시 분포 패턴이 순위 크기 규칙(즉, 순위 크기 원칙이 중심 위치 이론과 상관되는 경우)을 따를 것으로 예상되면, 규칙을 따르지 않는 분포를 가진 국가나 지역이 정상 분포 패턴을 변화시킨 몇 가지 조건을 경험했음을 시사한다.예를 들어, 중국이나 미국 같은 큰 나라들 내에서 여러 지역의 존재는 규칙으로 예측되는 것보다 더 많은 큰 도시가 나타나는 패턴을 선호하는 경향이 있다.이와는 대조적으로, 훨씬 더 큰 지역에 연결되었던 작은 나라들(예: 식민지/경제적으로)은 다른 도시들에 비해 가장 큰 도시가 규칙에 맞도록 훨씬 더 큰 분포를 보일 것이다. 즉, 도시의 과도한 크기는 이론적으로 자연적인 하이보다는 더 큰 시스템과의 연결에서 비롯된다.중앙 장소 이론이 그 한 국가나 지역 내에서만 예측할 수 있는 황폐화

참고 항목

참조

  1. ^ "자연과 경제의 지수 분포: 특성 척도를 가진 "뚱뚱한 꼬리", J. Laherere 및 D.소넷
  2. ^ "The 200 Largest Cities in the United States by Population 2021". worldpopulationreview.com. Retrieved 2021-03-28.
  3. ^ 2009년 11월 24일 랜드 피쉬킨의 긴 꼬리 묘사
  4. ^ a b 2006년 9월 4일 로버트 영, 그 뚱뚱한 벨리!
  5. ^ 긴 꼬리 키워드 최적화 가이드 - 긴 꼬리 키워드로부터 수익을 얻는 방법, 2009년 8월 3일, Tom Demers
  6. ^ 스몰 헤드, 미디엄 바디, 롱 테일.. 그렇다면 마이크로소프트는 어디에 있는가?2015-11-17년 웨이백머신, 2005년 3월 12일 내부로부터 로렌스 류의 보고서 보관
  7. ^ Lin, Ruokuang; Ma, Qianli D. Y.; Bian, Chunhua (2014). "Scaling laws in human speech, decreasing emergence of new words and a generalized model". arXiv:1412.4846. Bibcode:2014arXiv1412.4846L. {{cite journal}}:Cite 저널은 필요로 한다. journal=(도움말)
  8. ^ Dacey, M F (1 April 1979). "A Growth Process for Zipf's and Yule's City-Size Laws". Environment and Planning A. 11 (4): 361–372. doi:10.1068/a110361. S2CID 122325866.
  9. ^ Zipf의 법칙, 즉 Lank-Size Distribution Steven Brakman, Harry Garretsen, Charles van Marrewijk에 보관된 2007-02-13
  10. ^ 도시 순위-규모 계층 구조 제임스 W.폰세카
  11. ^ "Kwok Tong Soo (2002)" (PDF).
  12. ^ Zipf의 법칙 또는 Wayback Machine보관 Lank-Size Distribution 2007-03-02
  13. ^ 큐브레스, 데이비드, 도시의 흥망성쇠, 2004년 9월 29일 시카고 대학교

추가 읽기

외부 링크

  • Wikimedia Commons에서 순위 크기 분포와 관련된 미디어