위키백과:위키백과 간판포스트/2009-06-22/반달리즘
Wikipedia:반달리즘 생존시간 연구
이 연구는 영어 위키피디아에 반달리즘이 남아 있는 시간의 분포를 결정하는 데 초점을 맞추고 있다.이 분포는 공공 기물 파손의 생존 기능으로도 알려져 있다.이 연구의 두 가지 주요 결과는 다음과 같다: ⑴ 수정까지의 중간 시간이 4분으로 줄어들었고, ⑵ 몇 가지 미묘한 형태의 공공 기물 파손 행위는 몇 달 심지어 몇 년 동안 지속된다.
과거에는 반달리즘이 시정될 때까지 위키피디아에 얼마나 오랫동안 남아있는지에 대한 공식적, 비공식적 통계적 연구도 있었지만, 거의 모든 연구들은 평균 교정 시간(즉 관측된 시간의 단순한 산술적 평균으로)으로서 결과를 표현한다.나는 이 연구에서 수정 시간의 분포 함수가 너무 뚱뚱한 꼬리를 가지고 있어서 평균 수정 시간은 수학적으로나 실질적으로 의미가 없다는 것을 보여줄 것이다.반면에 보정까지의 중간 시간은 유용한 정보를 전달한다.
방법
위키피디아 영문판 100개 기사의 무작위 표본을 항법 도구모음에서 임의 기사 링크를 이용하여 구했다.각 기사에 대해, 역사 일지는 가장 최근의 것부터 시작해서 명백한 파괴 행위가 발견될 때까지 기록된 각각의 변화를 조사하기 위해 사용되었다.그런 다음 기물 파손이 시정될 때까지 계속 진행하면서 변경 사항을 역순으로 스캔했다.
그러한 공공 기물 파손의 각 예에 대해 수정까지의 경과 시간은 분 단위로 계산된다.이것은 이 보고서의 기초가 되는 기초 자료들이다.
또한, 공공 기물 파손의 일반성에 대해서도 몇 가지 주석을 달았다.모든 데이터 수집은 2009-06-11년에 일어났다.
결과
- 100개의 기사 중 75개는 파손된 적이 없다.
- 한 번이라도 파손된 25개 기사 중 가장 최근의 이런 기물 파손 사례는 결국 23개 기사로 정정됐다.
- 파손된 기사의 5건(20%)에서 가장 최근 기물 파손 사례가 1분도 안 돼 정정됐다.추가로 4개의 사례가 2분 이내에 수정되었다.
- 수정까지의 중간 시간은 4분이었다.
- 두 기사는 결코 고쳐지지 않는 공공 기물 파손에 시달린 것으로 밝혀졌다.그 중 하나는 2007-02-23일에 자행된 미묘한 공공 기물 파손 행위였으며, 연구 날짜인 2009-06-11에도 아직 발견되지 않았다.
토론
수정해야 할 시간의 히스토그램이 오른쪽 차트에 표시된다.수평축은 로그 척도로 묘사되어 있으며, 엄청나게 긴 오른쪽 꼬리를 수용한다.
이 히스토그램에는 분명히 두 개의 개별 프로세스가 있다.히스토그램의 대부분은 경과 시간의 힘 함수로써 감소하는 곡선을 따른다: 이것은 위키피디아의 일반 독자와 편집자들이 우연히 공공 기물 파손의 예를 발견하고 수정하는 과정이다.
그러나 왼쪽의 처음 두 막대는 곡선이 시사하는 것보다 상당히 높다.막대기의 실제 높이와 곡선으로 예측한 높이 사이의 차이는 위키백과의 최근 변경 순찰대(RCP)의 독자적인 활동에 의해 설명된다.RCP의 구성원은 일반적으로 의심스러운 편집이 있는지 최근 변경 로그를 모니터링한다.RCP는 발생 몇 초 안에 가장 노골적인 공공 기물 파괴 행위를 시정할 수 있다.
이 두 기물 파손-수정 과정은 모두 주목할 만한 결과를 내기 위해 함께 작용하는데, 이 연구에서 기물 파손에 대한 보정 시간은 단지 4분인 것으로 밝혀졌다.이 저자가 1년과 2년 전에 수행한 유사한 (발표되지 않은) 연구들은 각각 5분, 6분의 수정으로 중간값을 산출했다.위키피디아가 이미 인상적인 반달리즘 발견과 수정 비율을 향상시키고 있는 것은 분명해 보인다.
평균 수정 시간 문제
수평축이 로그인 그래프에서 생존함수의 추정 곡선이 지수적이라는 사실은 확률밀도함수 자체가 공식에 의해 주어진 파레토 분포라고도 하는 전력법 분포를 따른다는 것을 나타낸다.
위의 공식에서 매개 변수 이(가) 1보다 작으면(이 경우처럼) 분포의 평균은 무한하다.이러한 비정상적인 상황의 실제적인 의미는 경험적 데이터로부터 계산된 표본 평균이 파괴 행위(bandalism)의 한 예를 교정하는 데 걸리는 일반적인 시간에 대한 정보를 전혀 전달하지 않는다는 것이다.
이 상황에서 표본 평균에 대한 유일한 유용한 대안은 긴꼬리 분포에 대해 완전히 견고한 표본 중위수뿐이다.
RCP의 활성도에 관해 어떤 가정을 하는가에 따라, 파레토 분포에 대한 b 은 약 0.25와 0.40 사이의 범위에 있다.이 범위는 분포의 꼬리가 크고 표본 평균이 데이터를 설명하는 데 완전하고 완전히 쓸모 없음을 나타내는 1보다 훨씬 낮다.
공공 기물 파손 유형 관찰
내가 이 무작위 표본에서 관찰한 반달리즘의 약 84%는 그저 장난치는 청소년인 것 같았다.성인처럼 보이는 16% 중 절반은 성인 유머나 분노인 것 같았고, 절반은 위키피디아에 영구적이지만 거의 보이지 않는 표시를 남기려는 의도를 가진 사람들로부터 온 것 같았다.예를 들어 가해자는 모호한 이름의 철자를 부정확한 형태로 주의 깊게 바꾸거나, 언뜻 보기에 여전히 그럴듯해 보이는 것으로 위치를 바꾸게 된다.나는 그들이 그 미묘한 변화가 아직도 거기에 있는지 보기 위해 그들이 변경한 페이지로 다시 되돌아오는 것을 상상한다.아마도 이 충동은 사람들이 자신의 이니셜을 나무에 새기거나 돌에 긁히게 하는 것과 거의 같은 것일 것이다.
결론
모든 공공 기물 파손의 50%가 4분 정도의 시간 내에 발견되어 되돌아오고 있다는 사실은 영어 위키백과 기사들이 악의적인 기물 파괴에 대한 민감성에 대한 두려움을 완화시키는 데 크게 도움이 될 것이다.반면에, 모든 공공 기물 파손의 10%가 수개월 그리고 심지어 수 년 동안 지속된다는 사실은 가장 미묘하고 지속적인 형태의 기물 파괴 행위를 근절하기 위해 몇 가지 새로운 도구와 전략이 필요하다는 것을 보여준다.
원시 데이터
본 연구에서 발견된 반달리즘 사례에 대한 교정까지의 경과 시간(분)은 다음과 같다: { 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 4, 5, 8, 9, 19, 73, 213, 490, 672, 2442, 14176, 152996 }.게다가 (저자가 발견하기 전까지) 반달리즘의 2건은 시정된 적이 없었다.
저자 노트
나는 이 연구에 대한 모든 논평과 비평에 감사한다. 이것을 위해 토론 페이지를 이용한다.이 보고서를 편집하는 경우 각별히 주의하십시오.아메틀링 (대화) 05:35, 2009년 6월 15일 (UTC)
표본크기
더 큰 샘플을 사용하는 것에 대해 생각해 보셨나요?단 100개의 표본 크기에는 꽤 큰 오차 표시줄이 있다는 것을 인정하게 될 겁니다.더 하는 게 지루하다는 건 알지만...대학원생들이 원하는 것은 바로 그것이다.
또한, 페이지의 「중요성」을 참작할 수 있는 방법을 보고 싶다.월별 페이지 뷰 번호를 대략적인 프록시로 사용할 수 있다.내 추측으로는 반달리즘의 시간과 기사의 인기는 높은 상관관계가 있다.따라서 4분이 모든 기사의 중간값일 수 있지만, 실제로 사람들이 읽고 있는 기사들의 중간값은 여전히 작을 수 있다(인정하자, 대부분의 기사는 거의 읽히지 않는다). --Cyde Weys 03:09, 2009년 6월 23일 (UTC)
도구에 대한 몇 가지 생각
연구 고마워. 읽기에 꽤 흥미로웠어.내가 처음 생각한 것은, 전에 고쳐지지 않았던 반달리즘의 두 가지 사례를 바로잡았는가 하는 것이었다.그렇지 않다면, 그들이 무엇이었는지 말해주면, 내가 그것을 할 것이다.제시W, 저글링 관리인 2009년 6월 16일 (UTC)
어떤 도구가 도움이 될 지에 대해서는 -- 더 나은 역사 분석 도구가 상당한 도움이 될 것으로 보인다.꽤 오랫동안, 나는 그러한 도구들을 만드는 데 시간을 두고 싶었다. 하나는 주어진 기간 동안 기사에 추가된 모든 텍스트를 보여주는 것이고, 다른 하나는 글의 연대를 강조하는 것이고, 다른 하나는 주어진 기간 동안 변하지 않은 글을 강조하는 것이다.나는 그러한 도구들이 역사에서 잃어버린 공공 기물 파손 행위를 근절하는 데 큰 도움이 될 것이라고 생각한다.나머지 문제는 의도적으로 교묘한 반달리즘이 다른 올바른 변화 안에 포함되거나, 다루기 훨씬 더 어려운 미묘한 사실적 거짓말이나 편견일 것이다.당신의 생각은 확실히 감사할 겁니다.제시W, 저글링 관리인 2009년 6월 16일 (UTC)
시정되지 않은 공공 기물 파손 행위
나는 다음과 같이 물어봐야 한다.교정되지 않은 반달리즘이 있는 두 기사는 무엇이었을까?칼다리 (대화) 2009년 6월 17일 00:49 (UTC)
흠...
나는 이 시험이 아주 좋은 출발이라고 생각하지만, 표본의 작은 크기가 "모든 공공 기물 파손의 50%가 탐지되고 있다" "몇 달 동안 모든 기물 파손의 10%" (내 것 강조)와 같은 표현들을 사용하는 것과 결합되어 매우 불편하다.그 비율들이 당신의 (작은) 표본에서 나타난 비율이었지만, 100개의 표본이 "모든 파괴 행위"를 절대적으로 대표한다고 주장하는 것은 좀 지나치다.– ClockworkSoul 05:23, 2009년 6월 23일 (UTC)
질의
이것은 훌륭한 작품이다.나는 오랜 시간 동안 공공 기물 파손의 번복에 대한 일반적인 안심할 수 있는 진술에 대해 회의적이었다. 고대의 공공 기물 파손이 지속되고 있는 많은 사례들을, 심지어 다소 교통량이 다소 많은 기사에서도 말이다.이것은 무슨 일이 일어나고 있는지 깔끔하게 묘사하고 있다.질문: 이 결과로부터 현재 파손된 물품의 몇 퍼센트를 추정할 수 있는가?(표본의 2%가 이 상태였다는 것을 깨달았지만, 어떤 확신을 가지고 그 상태에서 무엇을 끌어낼 수 있는지 확실하지 않다.)이언 스팩맨 (대화) 06:30, 2009년 6월 23일 (UTC)
창조적이든 인간적이든 파괴적이든 모든 반달리즘을 예방하는 것은 아마도 불가능할 것이며, 일부 예는 진실성, POV-ism 및/또는 진정한 오해와 중복될 것이다."2010년 1월 1일 현재 모든 마지막 기사가 오류, 파괴행위, POV 및 기타 문제가 없음을 확실히 하기 위한 추진력이 있었다고 해도 몇 가지 예는 살아남을 수 있을 것이다. 그리고 그러한 것들이 새롭게 출현할 것이다.
예를 들어, (현 교황, 총리, 모나크, 대통령, 스포츠 챔피언 등) 100/200/500년 전/그 밖의 날짜보다 공공 기물 파손의 대상이 더 많을 것이라고 추측할 수 있다. - — 83.104.132.41(대화 및 기여)이 추가된 이전의 부호 없는 논평
가능한 치우침
이 흥미로운 연구에 감사한다.나는 너의 일반적인 결론에 동의한다.그러나 나는 샘플 디자인, 특히 각 기사의 가장 최근의 반달리즘 사례에 대한 당신의 조사로 인해 결과가 (기술적인 의미에서) 편향될 수 있다고 생각한다.이것은 심하게 파손된 물품의 공공 기물 파손 사례는 덜 파괴된 물품의 사례에 동일한 가중치를 부여할 것이며, 따라서 심하게 훼손된 물품의 각 기물 파괴 사례는 덜 파괴된 물품의 사례보다 표본에 들어갈 가능성이 더 낮다는 것을 의미한다.만약 심하게 파손된 물품에 대한 공공 기물 파손 행위가 더 빠르고 철저하게 시정된다면, 예를 들어 사람들이 그것을 기대하고 더 가까이서 지켜보기 때문에, 당신의 시정 시간 척도가 지나치게 강조되는 경향이 있을 것이다.
예를 들어, 공공 기물 파괴율의 일부 측정에 기초하여 가중치를 부여함으로써 이러한 효과를 교정할 수 있을 것이다.그러나 여기에는 예를 들어 일부 기사가 다른 기사들보다 오래되었기 때문에 다른 잠재적인 편견이 도사리고 있다.모든 것에 적응하는 것은 어려울 수 있다.또 다른 방법은 여러분이 만들고 있는 가정을 통해 생각하고 그에 따라 결과를 회피하는 것이다. -- Avenue (토크) 08:38, 2009년 6월 24일 (UTC)
어떤 주제는 반달 자석이고, 반면에 (가장 넓은 의미에서) "뉴스 주제에서"는 많은 반달리즘, "중복 편집에서 발생하는 오류" 그리고 다른 오류의 근원을 겪게 될 가능성이 높으며, 이것은 사건이 역사 속으로 넘어가고 나면 현저하게 떨어질 것이다(예: 조지 W 부시와 토니 블레어에 관한 기사들은 이러한 현상을 보여줄 것 같다).그리고 애매한 주제에 대한 기사의 "반달리즘과 오류"는 한동안 발견되지 않은 채로 남아 있을 가능성이 높다."낮음", "중간", "높음" 활동 기사의 적절한 근거를 결정하기 위해 "통계적"을 도입할 수 있는가?(좀 더 기술적인 분석은 그들이 등장하는 다양한 언어의 기사들을 비교하는 것을 포함한다 - 특정한 논란이 "여행"하는 방법을 보기 위해서.— 83.104.132.41 (대화)이 추가된 서명되지 않은 논평 준비.
위키피디아 제목
이상적으로, 나는 위키피디아를 설치했다:위키프로젝트 반달리즘은 여기서 언급된 것과 같은 종류의 연구를 하기 위해 연구한다.바라건대, 이번 연구로 그 프로젝트가 다시 진행되길 바란다.(대화) 16:52, 2009년 6월 24일 (UTC)
메타폴로지
나는 결론과 결과를 일치시키는 데 약간의 문제가 있다고 본다.우리(또는 당신)는 "모든 기물 파손의 50%가 4분 이내에 감지되어 되돌아오고 있다"고 진술하고 있다.네가 그걸 공부했는지 잘 모르겠어.내 생각에 당신이 발견한 것은 이전에 파손된 기사의 50%가 가장 최근의 기물 파괴 행위를 4분 이내에 되돌렸다는 것이다.나는 네가 무시하고 있는 두 가지 효과가 있다고 생각해.
1. "반달리즘"의 좋은 샘플을 채취하지 못하고 있다. "반달리즘"은 편집본이기 때문에, 당신의 샘플은 편집본에서 무작위로 선택해야 한다.대신, 당신은 기사에서 무작위로 표본을 추출한다.이 기사는 한 기사지만 6개 편집된 테드 샤바신스키를 과체중으로 하고 조지 W. 부시에게는 편집이 더 많고, 따라서 반달리즘도 더 저평가되지만 만약 이 두 기사가 전체 샘플이라면, 당신은 50퍼센트의 기사가 반달리즘을 훼손한 적이 없고, 50%의 기사가 반달리즘을 다시 가지고 있다고 말할 것이다."초 단위"의 중위수에 대한 초 단위.사실, 당신이 했어야 하는 것은 편집의 무작위 샘플을 채취해서 그 편집들 중 어느 것이 파괴행위인지 결정하고, 편집에 대한 되돌리기 시간을 결정하는 것이었습니다.당신은 데이터베이스에서 무작위 편집을 여러 가지 방법으로 선택할 수 있다. 나는 기술적으로 더 많은 지식을 가진 것이 당신이 가장 무작위적인 방법을 알아내는 데 도움이 될 것이라고 확신한다.
2. 당신은 더 최근의 공공 기물 파손에 의해 덮인 "아직도 존재하는" 기물 파괴 행위를 무시하고 있다.1년 전에 어떤 기사가 매우 미묘하고 피해를 주는 방법으로 파손되었다고 상상해보라(JFK 암살에 그 사람이 연루되었다는 것을 암시한다).그렇다면, 1분 전에 누군가가 머리 위에 "페니스 페니스 페니스 페니스 페니스"라고 썼다고 상상해보라. 그것은 즉시 되돌아갔다.당신의 연구는 이 기사의 파괴행위 TTL이 실제로 모든 방부주의 표본의 TTL이 1 TTL 즉석 TTL을 보여주고 1 TTL은 결코 되돌리지 않는 것을 보여주었을 때 즉시 되돌아갔다는 것을 보여줄 것이다.
이 두 가지 효과는 내게는 다른 방향으로 끌어당기는 것처럼 보일 것이다.나의 기대는 분포를 준다면 너무 길지만(4분 너무 큰) 너무 정상적인 분포를 가진 중위수 TTL을 보여줄 것이다(IE - 반달리즘은 당신이 토론하는 것보다 더 뚱뚱한 꼬리를 가지고 있으며, 반달리즘은 반달리즘이 좋아하지 않는 사람들을 폄하하도록 고안된 교묘하고 해로운 반달리즘으로 구성되어 있다.이는 [1]에서 오프사이트에서도 논의되고 있지만, 피부는 매우 두껍고 모든 참가자가 해당 위치에서 활동할 경우 대처할 수 있어야 한다.히포크라테스 (토크) 2009년 6월 25일 16:41, (UTC)
한 번도?
나는 이 연구와 그것이 무엇을 하기 시작했는지를 말해야 한다.우리는 이것으로부터 배운 다음, 그것을 반복할 수 있는데, 더 큰 샘플로 우리가 발전했는지 확인할 수 있다.
나는 당신이 "절대"라는 단어를 사용한 것에 대해 이의를 제기한다. 왜 단지 공공 기물 파손 행위와 그것을 발견한 시간 사이의 시간을 진술하지 않는가?우리가 알고 있는 모든 것을 위해 단 하루일 수도 있었다.나는 이런 맥락에서 "절대"가 무엇을 의미하는지 잘 모르겠다.Stevage 01:13, 2009년 6월 26일 (UTC)
연구
마이클 잭슨, 패라 포셋, 기타 미성년자 눈에 띄는 것에 대한 "재분배 및 공공 기물 파손"의 "비교 및 대비"가 유용할까?
세 사람에 대한 비건설적 재배치의 가능성을 시사한다.
실수?
나는 그 기사를 별로 주의 깊게 읽지는 못했지만, 위키피디아에서는:위키백과 간판포스트/2009-06-22/반달리즘#결과...언제부터 5가 25의 25%였을까? 20퍼센트 확실해?아마도 이것은 전체 기사의 비율이 아니라 파괴된 기사의 비율이라는 것도 분명히 밝혀져야 할 것이다 - 페이지를 읽는 어떤 바보도 그렇게 될 수 있지만 위키피디아에는 많은 바보들이 있다.—Vanderdecken∴ ∫ξ 20:45, 2009년 7월 1일 (UTC)