연구 데이터 보관

Research data archiving

연구자료 보관이란 자연과학, 사회과학, 생명과학 등 학술적 연구자료장기간 보관하는 것을 말한다.다양한 학술지는 연구자들이 얼마나 많은 데이터와 방법을 공공 기록 보관소에 저장해야 하는지에 대한 서로 다른 정책을 가지고 있으며, 실제로 보관되는 것은 분야마다 매우 다르다.이와 유사하게, 주요 보조금 지급 기관들은 공공의 데이터 보관에 대한 다양한 태도를 가지고 있다.일반적으로, 과학의 전통은 출판물이 동료 연구자들이 복제할 수 있도록 충분한 정보를 포함하고 따라서 연구를 시험하는 것이었다.최근 몇 년 동안 일부 분야의 연구가 독립적으로 쉽게 복제할 수 없는 대규모 데이터셋에 의존함에 따라 이러한 접근방식은 점점 더 어려워지고 있다.

일부 분야에서는 데이터 보관이 다른 분야보다 더 중요하다.몇 가지 분야에서는 작품을 복제하는 데 필요한 모든 데이터가 저널 기사에 이미 수록되어 있다.약물 개발에서, 많은 데이터가 생성되고, 연구자들이 제약 회사가 발표하는 보고서가 그 데이터를 정확하게 반영하는지 확인할 수 있도록 보관되어야 한다.

데이터 보관의 요건은 과학사의 최근 발전이다.중앙 위치에서 대량의 데이터를 저장하고 접근할 수 있도록 하는 정보기술의 발달에 의해 가능해졌다.예를 들어, 미국 지구물리학연합(AGU)은 WWW가 시작된 지 약 3년 후인 1993년에 데이터 보관에 관한 그들의 첫 번째 정책을 채택했다.[1]이 정책은 AGU 문서에 인용된 데이터 세트를 공인 데이터 센터에 의해 보관해야 하며, "데이터 문서"를 작성할 수 있어야 하며, 데이터 아카이브 유지에 있어 AGU의 역할을 확립해야 한다.그러나 그것은 종이 저자에게 그들의 데이터를 보관할 어떤 요건도 만들어 주지 않는다.

체계적인 데이터 보관에 앞서 논문을 평가하거나 복제하려는 연구자들은 저자에게 데이터와 방법 정보를 요청해야 할 것이다.학계에서는 저자들이 보충 자료를 공유할 것으로 기대하고 있다.이 과정은 시간과 에너지를 낭비하는 것으로 인식되어 엇갈린 결과를 얻었다.정보는 수년 동안 분실되거나 부패될 수 있다.어떤 경우에는 저자들이 단순히 정보 제공을 거부하는 경우도 있다.

이번 연구가 건강 문제나 공공 정책 형성을 다룰 때 데이터 보관과 실사의 필요성이 크게 증가한다.[2][3]

저널별 선택된 정책

바이오트로피카

바이오트로피카는 발행의 조건으로, 그 결과를 기술하는 논문과 메타데이터의 결과를 뒷받침하는 데이터를 Dryad, Figshare, GenBank, TreeBASE 또는 NCBI와 같은 적절한 공개 아카이브에 보관해야 한다고 요구한다.저자는 기사가 게재되는 즉시, 또는 아카이브의 기술이 허락하는 경우, 기사 발행 후 3년 이내에 데이터에 대한 접근 금지를 선택할 수 있다.데이터 가용성을 기술하는 진술은 저자에 대한 지침서에 기술된 대로 원고에 포함될 것이다.민감한 정보(예: 멸종위기종의 위치)를 포함하는 연구에 대해서는 편집장의 재량에 따라 필요한 자료 보관에 대한 예외를 인정받을 수 있다.이 정책의 동기를 설명하는 우리의 사설은 여기서 찾을 수 있다.보다 포괄적인 데이터 저장소 목록은 여기에서 확인할 수 있다.데이터 수집 및 아카이빙 연구자와의 협업 문화 촉진:열대 생물학자들이 수집한 데이터는 종종 장기적이고 복잡하며 수집 비용이 많이 든다.Biotropica의 편집자는 아카이브된 데이터 세트를 재사용하는 저자들에게 원래 수집했던 과학자들을 완전히 관여된 협력자로 포함시키도록 강력히 권장한다.우리는 이것이 연구 시스템의 자연사에 대한 데이터 수집기의 심오한 통찰력을 끌어내고, 새로운 분석에서 오류의 위험을 줄이며, ATBC바이오트로피카가 지향하는 학문 간, 문화간 협력과 훈련을 자극함으로써 결과 연구의 질과 영향을 크게 높일 것이라고 느낀다.널리 인정받다

NB: 바이오트로피카는 Dryad에 데이터를 기탁하는 저자에 대한 수수료를 지불하는 단 두 개의 저널 중 하나이다.

아메리카 자연주의자

미국 자연주의자는 저자들에게 승인된 논문과 관련된 자료를 공개 보관소에 보관할 것을 요구한다.유전자 시퀀스 데이터와 계통 생성 트리의 경우 각각 GenBank 또는 TreeBASE에 증착해야 한다.생태학 및 진화 생물학 데이터를 위한 Dryad 저장소를 포함하여 특정 데이터 집합에 적합할 수 있는 많은 가능한 보관소가 있다.GenBank, TreeBASE 및 Dryad의 모든 등록 번호는 Production으로 가기 전에 승인된 원고에 포함되어야 한다.데이터가 다른 곳에 입금된 경우 링크를 제공하십시오.데이터가 출판된 문헌에서 도태된 경우, 독자의 편의를 위해 Dryad에 데이터를 보관하십시오.데이터 공유에 대한 어떤 장애물도 적절한 준비가 이루어질 수 있도록 제출 시 편집자의 주의를 끌어야 한다.[4]

유전학 저널

기사의 결론에 기초하는 주요 데이터는 과학 기업의 검증가능성과 투명성에 중요하며, 향후 수십 년간 사용 가능한 형태로 보존되어야 한다.이러한 이유로, 유전학 저널은 새로 보고된 뉴클레오티드 또는 아미노산 시퀀스 및 구조 좌표를 적절한 공공 데이터베이스(예: GenBank, EMBL 뉴클레오티드 시퀀스 데이터베이스, 일본의 DNA 데이터베이스, 단백질 데이터 뱅크; 스위스-Prot)에 제출할 것을 요구한다.등록 번호는 원고의 최종본에 포함되어야 한다.다른 형태의 데이터(예: 마이크로위성 유전자형, 링크 맵, 이미지)에 대해, Journal은 모든 저자가 Dryad, TreeBASE 또는 생체복합을 위한 지식 네트워크와 같은 적절한 공공 아카이브에 주요 데이터 세트를 보관하도록 권장하는 JDAP(Joint Data Archiving Policy)의 원칙을 지지한다.저자는 발행 시점에 데이터를 공개적으로 이용할 수 있도록 하거나, 보관소의 기술이 허용하는 경우 발행 후 최대 1년 동안 데이터에 대한 접근 금지를 선택할 것을 권장한다.미국 유전학 협회는 또한 대규모 데이터셋을 생성하고 큐레이션하는 데 개인 연구자들의 막대한 투자를 인정하고 있다.따라서, 우리는 이 투자를 2차 분석이나 메타 분석에서 은혜로운 협력 정신으로 존중할 것을 권고한다.

oxfordjournals.org[5]

분자 생태학

Molecular Ecology는 논문의 결과를 뒷받침하는 데이터를 GenBank, Gene Expression Omnibus, TreeBASE, Dryad, Biocomplexity를 위한 Knowledge Network for Biocomplexity, 자체 기관 또는 funterly repository 또는 Molecular 생태학 웹사이트의 Supporting Information과 같은 적절한 공개 아카이브에 보관해야 한다고 기대한다.데이터는 과학 기업의 중요한 산물이며, 미래에는 수십 년간 보존되고 사용할 수 있어야 한다.저자는 발행 시점에 데이터를 공개하도록 선택할 수도 있고, 보관소의 기술이 허용하는 경우 발행 후 최대 1년 동안 데이터에 대한 접근을 금지할 수도 있다.특히 인간 주체 데이터나 멸종위기종 위치 등 민감한 정보에 대해서는 편집자의 재량으로 예외를 인정받을 수 있다.

Wiley[6]

자연

이러한 자료는 공인된 독립 사이트(저자가 제공하는 URL 및 등록 번호)에서 호스팅하거나, 저널의 온라인 제출 서비스를 통해 업로드하거나, 파일이 너무 크거나 이러한 목적에 적합하지 않은 형식의 파일이 CD/DVD(5부)에서 제출 시 네이처 저널로 전송해야 한다.그러한 자료는 저자의 개인 또는 기관 웹 사이트에서만 호스팅될 수 없다.[7]자연은 검토자가 모든 보충 데이터와 방법이 보관되었는지 여부를 판단하도록 요구한다.이 정책은 검토자들에게 다음과 같은 몇 가지 질문을 고려할 것을 권고한다. "저자에게 온라인에서 논문에 동반할 보충 방법이나 자료를 제공하도록 요청해야 하는가?(이러한 데이터는 모델링 연구, 상세한 실험 프로토콜 또는 수학적 출처를 위한 소스 코드를 포함할 수 있다.)

과학

과학은 과학계의 사용을 위해 발표된 데이터를 집계하는 데이터베이스의 노력을 지원한다.따라서, 발행 전에, 큰 데이터 세트(마이크로 어레이 데이터, 단백질 또는 DNA 시퀀스, 고분자 구조에 대한 원자 좌표 또는 전자 현미경 지도를 포함한다)는, 발행된 논문에 포함시키기 위해 제공된 승인된 데이터베이스와 등록 번호에 저장되어야 한다.[9]"자료와 방법" – 현재 Science는 일반적으로 저자들이 자료와 방법에 대한 설명의 대부분을 온라인에서 지원 자료로 배치하고, 본문의 논리에 따라 필요한 만큼의 방법 설명만을 인쇄 원고에 제공할 것을 요구한다. (확실히, 논문이 자금 제공자인 경우에는 이 제한이 적용되지 않을 것이다.)새로운 방법이나 기법의 연구를 집계하다.)

로열 소사이어티

다른 사람들이 왕립학회지에 게재된 작품을 검증하고 구축할 수 있도록 하기 위해 저자들이 기사에서 그 결과를 뒷받침하는 자료와 코드, 연구 자료를 활용할 수 있도록 하는 것이 출판 조건이다.

데이터셋과 코드는 공인된 적절한 공개 저장소에 보관되어야 한다.데이터 특정 리포지토리가 존재하지 않는 경우, 작성자는 데이터 세트를 Dryad(리포지토리) 또는 Figshare와 같은 일반 리포지토리에 보관해야 한다.

고고학 저널

고고학 저널은 적어도 2013년부터 자료 공개 정책을 시행하고 있다.그들의 정책은 '기사와 관련된 모든 데이터는 보충 파일에 제공되거나 외부 저장소에 보관되어야 하며 기사 내에 연결되어야 한다'고 명시되어 있다.이 정책은 고고학 데이터 서비스, 디지털 고고학 기록 또는 판게아 같은 저장소에 데이터를 보관할 것을 권고한다.2018년 한 연구에서는 이 정책의 약한 시행이나 이 정책을 해석하고 실행하는 방법에 대한 편집자, 검토자 및 저자의 불완전한 이해를 반영하여 53%의 데이터 가용성 비율을 발견했다.[12]

자금 조달 기관별 정책

미국에서는 국립과학재단(NSF)이 데이터 보관 요건을 강화했다.NSF로부터 자금을 조달하고자 하는 연구자들은 이제 보조금 신청에 대한 2페이지의 보충 자료로서 데이터 관리 계획을 제출할 필요가 있다.[13]

NSF Datanet 이니셔티브는 전 세계 과학자들이 생산한 생태 및 환경 데이터를 위한 과학적 데이터 아카이빙을 제공하는 DataONE(Data Observation Network for Earth) 프로젝트에 자금을 지원하는 성과를 거두었다.DataONE의 명시적인 목표는 다중 규모, 다중 부문 및 다중 국가 데이터의 보존 및 액세스를 제공하는 것이다.DataONE을 위한 사용자 커뮤니티에는 과학자, 에코시스템 관리자, 정책 입안자, 학생, 교육자 및 대중이 포함된다.

독일 DFG는 연구자 자신의 기관이나 적절한 전국 인프라에 최소한 10년 동안 연구 데이터를 보관해야 한다고 규정하고 있다.[14]

British Digital Curration Center는 펑더의 데이터 정책에 대한 개요를 유지한다.[15]

데이터 아카이브

연구 데이터는 데이터 라이브러리 또는 데이터 아카이브에 보관된다.

참고 항목

참조

  1. ^ "AGU 간행물용 데이터 참조 및 아카이빙에 관한 정책" [1]
  2. ^ 브루스 맥컬러와 로스 맥키트릭의 '정책 형성에 실증적 연구가 활용되었을 때의 실사 사례'[2]
  3. ^ Gary King Archived 2007-03-28의 "데이터 공유 복제"사이트
  4. ^ 지원 데이터 및 자료
  5. ^ 데이터 보관 정책
  6. ^ 데이터 보관 정책
  7. ^ "데이터 및 자료의 가용성:[오피니언] 네이처 매거진
  8. ^ "Guide to Publication Policies of the Nature Journals" (PDF). March 14, 2007.
  9. ^ 과학잡지 종합정책
  10. ^ "지원 온라인 자료 준비"
  11. ^ "데이터 공유 및 마이닝"
  12. ^ Marwick, Ben; Birch, Suzanne E. Pilaar (5 April 2018). "A Standard for the Scholarly Citation of Archaeological Data as an Incentive to Data Sharing". Advances in Archaeological Practice. 6 (2): 125–143. doi:10.1017/aap.2018.3.
  13. ^ "NSF는 모든 보조금 신청자에게 데이터 관리 계획을 요청한다"
  14. ^ "연구자료 처리에 관한 DFG 지침"
  15. ^ "자금 조달자의 데이터 정책 개요 디지털 큐레이션 센터"

메모들