바이오메디컬 텍스트 마이닝
Biomedical text mining바이오메디컬 텍스트 마이닝(Biomedical Natural Language Processing 또는 BioNLP 포함)은 바이오메디컬 및 분자생물 영역의 텍스트와 문헌에 텍스트 마이닝이 어떻게 적용될 수 있는지에 대한 방법과 연구를 말한다. 연구 분야로서, 생물 의학 텍스트 마이닝은 자연 언어 처리, 생물 정보학, 의학 정보학, 컴퓨터 언어학으로부터 아이디어를 통합한다. 이 분야의 연구를 통해 개발된 전략은 PubMed와 같은 서비스를 통해 이용할 수 있는 생물의학 및 분자생물학 문헌에 자주 적용되고 있다.
고려 사항.
텍스트 마이닝 접근방식을 생물의학 텍스트에 적용하려면 도메인에 공통적인 특정 고려사항이 필요하다.
주석이 달린 텍스트 데이터의 가용성
범용 텍스트 마이닝 방법(예: 영화 대화,[2] 제품 리뷰 [3]또는 위키백과 기사 텍스트)의 개발 및 훈련에 사용되는 큰 주석 법인체는 생물의학 언어에 특정되지 않는다. 그들은 언어의 일부와 같은 일반적인 텍스트 속성의 증거를 제공할 수 있지만, 생물학자나 임상의가 관심을 갖는 개념은 거의 포함하지 않는다. 따라서 생물의학 문서에 특정한 특징을 식별하기 위한 새로운 방법을 개발하기 위해서는 전문화된 회사의 조합이 필요하다.[4] 생물학 통합 정보학 및 침상(i2b2) 과제와[5][6][7] 생물의학 정보학 연구자를 통해 새로운 생물의학 텍스트 마이닝 방법을 구축하는 데 도움이 되도록 설계된 자원이 개발되었다.[8][9] 텍스트 마이닝 연구자들은 종종 이 회사들을 국립 의학도서관의 통합의학언어시스템(UMLS)과 의학주제목제목(MeSH)을 통해 이용할 수 있는 통제된 어휘와 온톨로지와 결합한다.
머신러닝(machine learning) 기반 방법은 유용한 모델을 구축하기 위한 훈련 데이터로서 매우 큰 데이터 세트를 필요로 하는 경우가 많다.[10] 대형 텍스트 코퍼레이션의 수동 주석은 현실적으로 불가능하다. 따라서 훈련 데이터는 약한 감독[11][12] 또는 순전히 통계적 방법의 산물일 수 있다.
데이터 구조 변동
다른 텍스트 문서와 마찬가지로, 생물의학 문서도 비정형 데이터를 포함하고 있다.[13] 연구 간행물은 다른 형식을 따르고, 다른 유형의 정보를 포함하고, 그림, 표 및 기타 비 텍스트 콘텐츠가 혼합되어 있다. 표와 같은 비정형 텍스트와 반정형 문서 요소 모두 텍스트 마이닝되어야 하는 중요한 정보를 포함할 수 있다.[14] 임상 문서는 부서와 위치마다 구조와 언어가 다를 수 있다. 약물 라벨과 같은 다른 유형의 생물의학 텍스트는 일반적인 구조 지침을 따를 수 있지만 자세한 내용은 부족하다.[15]
불확실성
생물의학 문헌에는 사실의 진술이 아닐 수도 있는 관찰에 대한 진술이 포함되어 있다. 이 본문은 주장에 대한 불확실성이나 회의감을 나타낼 수 있다. 구체적인 적응이 없다면, 텍스트 내에서 주장을 식별하도록 설계된 텍스트 마이닝 접근방식은 이러한 "헤지된" 문구를 사실로서 잘못 표기할 수 있다.[16]
임상적 필요성 지원
임상 사용을 위해 개발된 생물의학 텍스트 마이닝 애플리케이션은 임상의사의 요구와 요구를 이상적으로 반영해야 한다.[4] 이는 임상 의사결정 지원이 유익하고 정확할 것으로 예상되는 환경에서 우려되는 사항이다.
임상 시스템과의 상호 운용성
새로운 텍스트 마이닝 시스템은 기존 표준, 전자 의료 기록 및 데이터베이스와 함께 작동해야 한다.[4] LOINC와 같은 임상 시스템과의 인터페이스 방법은 개발되었지만[17] 구현과 유지를 위해 광범위한 조직 노력이 필요하다.[18][19]
환자 개인 정보 보호
개인 의료 데이터로 운영되는 텍스트 마이닝 시스템은 보안을 존중해야 하며 적절한 경우 익명으로 제공되어야 한다.[20][21][22]
과정
특정 하위 작업은 생물의학 텍스트를 처리할 때 특히 중요하다.[13]
명명된 엔티티 인식
생물 의학 텍스트 마이닝의 발전은 명명된 실체 인식(NER)을 가진 생물학적 실체를 식별하는 것을 통합했다. 단백질과 유전자,[23] 화학성분 및 약물,[24] 질병명[25] 등 생체분자의 이름과 식별자, 모두 실체로 사용돼 왔다. 딥러닝과 단어 임베딩이 통합된 방법 또한 생체의학 NER에서 성공을 거두었지만 대부분의 개체 인식 방법은 사전에 정의된 언어적 특징이나 어휘에 의해 뒷받침된다.[26]
문서 분류 및 클러스터링
생물의학 문서는 그 내용과 주제에 따라 분류하거나 분류할 수 있다. 분류에서 문서 카테고리는 수동으로 지정되는 반면,[27] 클러스터링에서 문서는 알고리즘에 의존하고 구별되는 그룹을 형성한다.[28] 이 두 가지 과제는 각각 감독 및 감독되지 않은 방법을 대표하지만, 두 가지 모두 그 특징에 따라 문서 하위 세트를 제작하는 것이 목표다. 생물의학 문서 군집화 방법은 k-평균 군집화에 의존해 왔다.[28]
관계발견
생체 의학 문서는 개념들 간의 연관성, 그것들이 생체 분자 간의 상호작용인지, 시간에 따라 후속적으로 발생하는 사건들(즉, 시간 관계) 또는 인과 관계를 기술한다. 텍스트 마이닝 방법은 종종 명명된 실체 인식과 함께 이러한 연결을 식별하기 위한 관계 검색을 수행할 수 있다.[29]
헤지 큐 감지
불확실한 또는 "해결된" 문구를 식별하는 어려움은 생물의학 문헌에서 헤지 큐 탐지를 통해 해결되었다.[16]
클레임 탐지
복수의 연구자가 문헌으로부터 구체적인 과학적 주장을 규명하는 방법을 개발했다.[30][31] 실제로 이 과정에는 문서 작성자가 작성한 핵심 주장(논쟁 채굴, 정치학 등의 분야에서 사용되는 도구 채택)을 나타내는 구문과 문장을 분리하고 청구권 비교를 통해 그들 사이의 잠재적 모순을 발견하는 과정이 모두 포함된다.[31]
정보 추출
정보 추출, 즉 IE는 구조화되지 않은 텍스트나 부분 구조화된 텍스트에서 구조화된 정보를 자동으로 식별하는 과정이다. IE 프로세스는 템플릿의 내용이나 지식 기반과 같이 보다 구조화된 형태로 텍스트를 번역하는 전체적인 목표를 가지고 명명된 실체 인식, 관계 발견 및 문서 분류를 포함한 위의 활동의 일부 또는 전부를 포함할 수 있다. 는 의공학 도메인에서 IE유전자 Ainhibits 유전자 B와 유전자 C와 같은 개념 글로 설명되어, 질병 G.[32]의학 지식 베이스 광범위한 매뉴얼 큐레이션의 이런 유형의 정보를 일반적으로 제품을 포함한 상태에 있어서, 자동화된 방법 통해 수동으로 노력의 교체로 남아 있compe 관련된 사람들 사이의 연결 고리를 생성하는 데 사용된다.lling 연구 [33][34]영역
정보 검색 및 질문 답변
바이오메디컬 텍스트 마이닝은 검색 질의와 일치하는 문서와 개념을 식별하기 위한 애플리케이션을 지원한다. PubMed 검색과 같은 검색 엔진은 사용자가 문서 내용, 메타데이터 또는 MESH와 같은 인덱스에 존재하는 단어나 구문을 사용하여 문헌 데이터베이스를 조회할 수 있도록 한다. 유사한 접근법은 의학 문헌 검색에 사용될 수 있다. 좀 더 세분화된 결과를 위해, 일부 애플리케이션은 사용자가 자연 언어 쿼리를 사용하여 검색하고 특정 생물의학 관계를 식별하는 것을 허용한다.[35]
국립의학도서관 등은 2020년 3월 16일 COVID-19 개방형 연구 데이터 집합(COD-19)을 발족하여 새로운 바이러스에 관한 현재 문헌의 텍스트 채굴이 가능하도록 하였다. 이 데이터세트는 앨런 AI 연구소의 시멘틱 스콜라 프로젝트가[36] 주최한다.[37] 구글, 마이크로소프트 리서치, 보안 및 이머징 테크놀로지 센터, 챈 주커버그 이니셔티브 등이 참가하고 있다.[38]
자원.
코모나
다음 표에는 바이오의학 텍스트 코메타 선택 항목과 그 내용이 나열되어 있다. 이러한 항목에는 주석 처리된 기업, 생물 의학 연구 문헌의 출처 및 MesSH와 같은 어휘 및/또는 온톨로지 참조 자료로 자주 사용되는 자원이 포함된다. "무료 이용 가능"에 "예"로 표시된 항목은 공공 장소로부터 다운로드 받을 수 있다.
| 코퍼스 이름 | 작성자 또는 그룹 | 내용물 | 자유롭게 사용 가능 | 인용 |
|---|---|---|---|---|
| 2006년 i2b2 정체성 제거 및 흡연 도전 | i2b2 | 환자 식별 및 흡연 상태 특징을 위해 주석을 단 889건의 비흡연 의료 퇴원 요약. | 예, 등록 시 | [39][40] |
| 2008년 i2b2 비만 챌린지 | i2b2 | 비만의 동반성 유무에 대해 주석을 단 1,237건의 비만의 제거 의료 퇴원 요약. | 예, 등록 시 | [41] |
| 2009 i2b2 약물 챌린지 | i2b2 | 목록 또는 서술 구조에서 복용량, 모드, 빈도, 지속시간, 이유, 존재 여부 등 의약품 이름과 세부사항에 대해 주석을 달았다. | 예, 등록 시 | [42][43] |
| 2010 i2b2 관계 과제 | i2b2 | 의학적 문제, 검사, 치료 및 이러한 개념 간의 관계에 대해 주석을 달았다. IRB 제한으로 인해 이러한 데이터 기록 중 일부만 연구에 사용할 수 있다. | 예, 등록 시 | [5] |
| 2011년 i2b2 핵심 참조 과제 | i2b2 | 개념과 핵심에 주석을 달은 978개의 삭제된 의료 퇴원 요약서, 경과 기록 및 기타 임상 보고서. ODIE 말뭉치를 포함한다. | 예, 등록 시 | [44] |
| 2012 i2b2 시간 관계 과제 | i2b2 | 사건 및 일시적 관계에 대해 주석을 달지 않은 310개 의료 퇴원 요약. | 예, 등록 시 | [6] |
| 2014 i2b2 식별 해제 과제 | i2b2 | 보호 건강 정보(PHI)를 위해 주석이 달린 1,304개의 식별되지 않은 종방향 의료 기록. | 예, 등록 시 | [45] |
| 2014 i2b2 심장병 위험요인 도전 | i2b2 | 심장동맥질환의 위험요인에 대해 주석을 단 1,304개의 종방향 의료기록이 삭제되었다. | 예, 등록 시 | [46] |
| AIMED | 부네스쿠 외 | 단백질과 단백질 간의 상호작용에 대해 주석을 단 200개의 추상체뿐만 아니라 단백질과 단백질 간의 상호작용이 없는 부정적인 예도 들어 있다. | 네 | [47] |
| 바이오C-바이오그리드 | 바이오크레아티브이 | 단백질과 단백질의 상호작용을 위해 주석을 달은 120개의 전문 연구 기사. | 네 | [48] |
| 바이오크레아티브이 1 | 바이오크레아티브이 | 단백질과 유전자 이름에 대해 주석을 단 1만5000문장(1만 training, 5000 test). 단백질 이름과 유전자 온톨로지 용어로 주석을 단 1,000여개의 전문 바이오메디컬 연구 논문. | 네 | [49] |
| 바이오크레아티브이 2 | 바이오크레아티브이 | 단백질과 유전자 이름에 대해 주석을 달은 1만5000문장(1만 training and 5000 test, 1차 말뭉치와는 다른)이다. EntrezGene 식별자에 연결된 542개의 추상화. 단백질-단백질 상호작용의 특징에 대한 다양한 연구 기사에 주석을 달았다. | 네 | [50] |
| BioCreative V CDR Task Corpus(BC5CDR) | 바이오크레아티브이 | 2014년 이상에 출판된 1,500개의 기사(직관적이고 추상적)에 4,409개의 화학물질, 5,818개의 질병, 3116개의 화학-화학 상호작용에 대한 주석을 달았다. | 네 | [51] |
| 바이오인퍼 | 피살로 외 | 생물 의학 연구의 1,100 문장은 관계, 명명된 실체, 통사적 의존성에 대해 주석을 달았다. | 아니요. | [52] |
| 바이오스코프 | 빈체 외 | 부정 또는 불확실성을 나타내는 언어적 범위와 용어에 대해 주석을 달은 1,954개의 임상 보고서, 9개의 논문, 1273개의 추상화. | 네 | [53] |
| BioText 인식 약어 정의 | 바이오텍스트 프로젝트 | 약어와 그 의미에 대해 주석을 달은 "yeast"라는 주제에 대한 1,000개의 추상화. | 네 | [54] |
| 바이오텍스트 단백질-단백질 상호작용 데이터 | 바이오텍스트 프로젝트 | HIV-1과 인간 단백질 간의 단백질-단백질 상호작용을 기술하는 1,322개의 문장, 상호작용 유형에 주석을 달았다. | 네 | [55] |
| 독성유전체학 비교 데이터베이스 | 데이비스 외 | 화학 물질, 유전자 제품, 표현형, 질병 및 환경 노출 사이의 수동으로 커팅된 연관성 데이터베이스. | 네 | [56] |
| 공예 | 버시푸어 외 | 언어 구조와 생물학적 개념으로 주석을 단 97개의 전문 바이오메디컬 출판물 | 네 | [57] |
| 제니아 코퍼스 | GENIA 프로젝트 | 1,999개의 생물 의학 연구는 언어, 구문, 용어, 사건, 관계, 그리고 핵심 참고문헌의 일부에 대해 주석을 단 "인간", "혈구 세포" 및 "설명 요인"에 대한 추상화를 한다. | 네 | [58][59] |
| 팸플렉스 | 바흐만 외 | 고유한 식별자에 연결된 단백질 이름 및 패밀리. 첨부 파일 세트 포함. | 네 | [60] |
| 플라이슬립 추상체 | 플라이슬립 | 유전자 이름으로 주석을 단 드로필라에 대한 82개의 연구 추상화 | 네 | [61] |
| 플라이슬립 전체 용지 | 플라이슬립 | 5개의 드로필라에 관한 연구 논문에는 유전자와 생물학적으로 관련이 있는 실체를 가리키는 명사 구문 사이의 음수관계로 주석을 달았다. | 네 | [62] |
| 플라이슬립 추측 선고 | 플라이슬립 | 1500개 이상의 문장이 추측성 또는 추측성 아닌 것으로 주석을 달았다. 절의 주석을 포함한다. | 네 | [63] |
| IEPA | 딩 외 | 486개의 바이오의학 연구에서 나온 문장은 단백질을 포함한 한 쌍의 공동 결합 화학물질에 대해 주석을 달았다. | 아니요. | [64] |
| JNLPBA 말뭉치 | 킴 외 | NER 작업을 위한 GENIA 말뭉치 버전 3의 확장 버전. | 아니요. | [65] |
| LLL(논리학)에서 언어 | 네델렉 외 | 단백질-지네 상호작용을 위해 주석을 단 바실러스 하위 박테리아에 대한 연구 기사의 77문장. | 네 | [66] |
| 의료 과목 제목(MesH) | 국립 의학 도서관 | 생물 의학 문서를 색인화하고 분류하기 위해 계층적으로 구성된 용어. | 네 | [67] |
| 메타테사우루스 | 국립 의학도서관 / UMLS | 200개 이상의 생물 의학 어휘와 식별자 사이에 매핑된 367만 개의 개념과 1400만 개의 개념 이름. | 예, UMLS 라이센스 계약서 사용 | [68][69] |
| SLAY-III | MIT 계산 생리학 연구소 | 성인 환자를 위한 53,423개 구별되는 병원 입원과 관련된 삭제 데이터. | 교육 및 정식 액세스 요청 필요 | [70] |
| ODIE 코퍼스 | 사보바 외. | 5,992개의 핵심 쌍으로 주석을 단 180개의 임상 기록. | 아니요. | [71] |
| 오수메드 | 허쉬 외 | 348,566 생물 의학 연구는 MESH(1991년 기준)를 포함하여 MEDLINE의 정보를 추상화하고 지수화한다. | 네 | [72] |
| PMC 개방형 액세스 하위 집합 | 국립 의학도서관 / 퍼브메드 센트럴 | 매주 업데이트되는 200만 건 이상의 연구 기사. | 네 | [73] |
| Rx노orm | 국립 의학도서관 / UMLS | 임상 약물과 약물 팩에 대한 정규화된 명칭으로, 복합 성분, 강도, 형태 및 시맨틱 네트워크로부터 할당된 유형. | 예, UMLS 라이센스 계약서 사용 | [74] |
| 시맨틱 네트워크 | 국립 의학도서관 / UMLS | 생물 의학 개념과 어휘를 다루는 133개의 의미 유형과 54개의 의미 관계 목록. | 예, UMLS 라이센스 계약서 사용 | [75][76] |
| 스페셜리스트 렉시콘 | 국립 의학도서관 / UMLS | 생물 의학 및 일반 영어의 통사적 어휘. | 네 | [77][78] |
| WSD(Word Sense Discambigation) | 국립 의학도서관 / UMLS | 203개의 모호한 단어와 37,888개의 단어들이 생체 의학 연구 출판물에 사용된 사례들을 자동으로 추출했다. | 예, UMLS 라이센스 계약서 사용 | [79][80] |
| 야펙스 | 프란젠 외 | 단백질 이름으로 주석을 단 200개의 생물의학 연구가 추상화되었다. | 아니요. | [81] |
워드 임베딩
몇몇 그룹은 단어 벡터 또는 단어 임베딩으로 알려진 실제 숫자의 벡터에 매핑된 생물 의학 어휘 세트를 개발했다. 생체 의학 어휘에 특화된 사전 훈련된 임베딩의 출처는 아래 표에 열거되어 있다. 대다수는 미콜로프 등이 개발한[82] 워드2vc 모델 또는 워드2vc 변형 모델의 결과물이다.
| 이름 설정 | 작성자 또는 그룹 | 내용 및 출처 | 인용 |
|---|---|---|---|
| 바이오ASQword2vec | 바이오ASQ | word2vc에 의해 10,876,004 English PubMed 추상체에서 생산된 벡터. | [83] |
| bio.nlplab.org 리소스 | 피살로 외 | PubMed 및 PubMed Central의 텍스트에 대해 교육된 서로 다른 접근법에 의해 생성된 단어 벡터 모음입니다. | [84] |
| 바이오벡 | 아스가리 모프라드 | 스위스 프로트(Swiss-Prot)를 사용하여 훈련된 유전자 및 단백질 시퀀스 벡터. | [85] |
| 방사선 보고임베딩 | 배너지 외 | 10,000개의 방사선 보고서 텍스트에서 word2vec로 생성된 벡터. | [86] |
적용들
생물 의학 분야의 텍스트 마이닝 애플리케이션에는 단백질 도킹,[87] 단백질 상호작용 [88][89]및 단백질-질병 연관성 연구를 지원하기 위한 계산적 접근법이 포함된다.[90]
유전자 군집 식별
마이크로 어레이 실험으로 얻은 유전자 군집과 해당 문헌이 제공하는 생물학적 맥락의 연관성을 판단하는 방법이 개발되었다.[91]
단백질 상호작용
단백질 상호작용과[92] 단백질의 기능 개념(예: 유전자 온톨로지 용어)에 대한 단백질 연관성의 자동 추출이 연구되었다.[citation needed] 검색 엔진 PIE는 MEDLINE 색인 기사에서 단백질-단백질 상호작용 언급을 식별하고 반환하기 위해 개발되었다.[93] 텍스트나 단백질의 아세포 위치에서 운동 매개변수를 추출하는 것도 정보 추출과 텍스트 마이닝 기술에 의해 다루어졌다.[citation needed]
유전자-질병 연관성
텍스트 마이닝은 유전자의 우선순위 설정이나 유전자의 식별에 도움을 줄 수 있다. 한 그룹은 유전자 우선 순위 벤치마크를 개발하기 위해 몇 개의 어휘, 표현, 순위 알고리즘을 비교했다.[94]
유전자-트래트 연합
농업 유전체학 그룹은 텍스트 마이닝을 이용한 소의 생식 특성과 관련된 유전자를 다른 접근법들 중에서 확인했다.[95]
단백질-질소 연관성
텍스트 마이닝은 방대한 양의 비정형 텍스트 데이터 내에서 단백질-질병 관계를 편견 없이 평가할 수 있게 한다.[96]
구문 마이닝의 질병 연관성 적용
한 텍스트 마이닝 연구는 매트릭스DB(matrixdb.univ-lyon1.fr)와 유니프로트의 두 데이터베이스를 기반으로 709개의 코어 세포외 매트릭스 단백질과 관련 단백질들을 모았다. 이 단백질 세트는 관리 가능한 크기와 풍부한 관련 정보를 가지고 있어서 텍스트 마이닝 도구의 적용에 적합했다. 연구진은 심혈관 질환의 6가지 범주에 관련된 생물 의학 문헌에 걸쳐 개별 세포외 매트릭스 단백질을 교차 검사하기 위해 구문 채굴 분석을 실시했다. 그들은 문구를 채굴하는 파이프라인, 문맥 인식 시맨틱 온라인 분석 처리(CaseOLAP)라는 문구를 사용한 다음,[97] CaseOLAP 파이프라인을 사용하여 무결성, 인기 및 고유성에 따라 709개 단백질을 모두 의미론적으로 채점했다. 텍스트 마이닝 연구는 기존 관계를 검증하고 심혈관계 병태생리학에서 이전에 인식되지 않았던 생물학적 과정을 알려주었다.[90]
소프트웨어 도구
검색엔진
사용자가 제공한 질의와 관련된 생물의학 문헌을 검색하도록 설계된 검색 엔진은 텍스트 마이닝 접근법에 자주 의존한다. 연구 문헌 전용으로 공개 가능한 도구로는 PubMed 검색, Europe PubMed Central 검색, GeneView,[98] APSE[99] 등이 있다. 마찬가지로, DataMed[100] 및 Omics를 비롯한 생물 의학 데이터 전용 검색 엔진과 인덱싱 시스템이 개발되었다.DI.[101]
Essie,[102] OncoSearch,[103] PubGene,[104][105] GoPubMed와[106] 같은 일부 검색 엔진은 이전에 공개되었지만, 그 이후로 단종되거나, 쓸모없게 되거나, 상용 제품에 통합되었다.
의료기록분석시스템
전자 의료 기록(EMR)과 전자 건강 기록(EHR)은 진단 및 치료 과정에서 의료진이 수집한다. 이러한 기록에는 일반적으로 예측 가능한 형식과 데이터 유형을 가진 구조화된 구성요소가 포함되지만, 나머지 보고서는 종종 자유 텍스트로 되어 있고 검색이 어려워 환자 관리에 어려움이 따른다.[107] 이러한 자유 텍스트 부분을 분석하기 위해 수많은 완전한 시스템과 도구가 개발되었다.[108] MedLEE 시스템은 원래 흉부 방사선 보고서 분석을 위해 개발되었지만 나중에 다른 보고서 항목으로 확장되었다.[109] 임상 텍스트 분석 및 지식 추출 시스템(cTAKES)은 개념 사전을 사용하여 임상 텍스트에 주석을 달았다.[110] CLAMP 시스템은 사용자 친화적인 인터페이스와 유사한 기능을 제공한다.[111]
프레임워크
계산 프레임워크는 생체 의학 텍스트 마이닝 작업을 위한 도구를 신속하게 구축하기 위해 개발되었다. SwellShark는[112] 사람이 라벨을 붙인 데이터를 필요로 하지 않지만 취약한 감독(예: UMLS 의미 유형)을 위해 자원을 사용하는 생물의학 NER의 프레임워크다. 스파크텍스트 프레임워크는[113] Apache Spark 데이터 스트리밍, NoSQL 데이터베이스, 기본적인 기계 학습 방법을 사용하여 과학 기사에서 예측 모델을 구축한다.
API
일부 바이오메디컬 텍스트 마이닝과 자연어 처리 도구는 API, 즉 API를 통해 이용할 수 있다.NOLL Coder는 API를 통해 개념인식을 수행한다.[114]
컨퍼런스
다음의 학술회의와 워크숍에서는 생물의학 텍스트 마이닝 진전에 대한 토론과 발표를 진행한다. 대부분 의사진행발표를 한다.
| 컨퍼런스 이름 | 세션 | 절차 |
|---|---|---|
| ACL 연차총회 | 본 회의 및 BioNLP 워크샵의 일환 | |
| ACL BioNLP 워크샵 | [115] | |
| 미국 의학 정보 협회(AMIA) 연례 회의 | 본회의에서 | |
| 분자생물학(ISMB)을 위한 지능형 시스템 | 본회의와 바이오에서.LINK 및 생물학 워크샵 | [116] |
| 생물정보학 및 바이오의약품 국제회의(BIBM) | [117] | |
| 국제 정보 및 지식 관리 회의(CIKM) | DTMBIO(바이오메디컬 정보학)의 데이터 및 텍스트 마이닝에 관한 국제 워크숍 내 | [118] |
| 북미 컴퓨터언어학협회(NAACL) 연차총회 | 본 회의 및 BioNLP 워크샵의 일환 | |
| 태평양 생물학 심포지엄(PSB) | 본회의에서 | [119] |
| PACBB(Computing Biology & Bio Informatics)의 실용적 응용 | [120] | |
| TREC(문자 RETrieval Conference) | 이전에는 TEC Genomics 트랙의 일부로, 2018년 현재 Precision Medicine Track의 일부로서, | [121] |
저널스
생물학과 의학에 관한 원고를 출판하는 다양한 학술지에는 텍스트 마이닝과 자연어 처리 소프트웨어에 관한 주제가 포함되어 있다. JAMIA(Journal of American Medical Informatics Association)와 생물학 정보학 저널 등 일부 저널은 이러한 주제에 대해 인기 있는 출판물이다.
참조
- ^ Westergaard D, Stærfeldt HH, Tønsberg C, Jensen LJ, Brunak S (February 2018). "A comprehensive and quantitative comparison of text-mining in 15 million full-text articles versus their corresponding abstracts". PLOS Computational Biology. 14 (2): e1005962. Bibcode:2018PLSCB..14E5962W. doi:10.1371/journal.pcbi.1005962. PMC 5831415. PMID 29447159.
- ^ Danescu-Niculescu-Mizil C, Lee L (2011). Chameleons in Imagined Conversations: A New Approach to Understanding Coordination of Linguistic Style in Dialogs. CMCL '11. pp. 76–87. arXiv:1106.3077. Bibcode:2011arXiv1106.3077D. ISBN 978-1-932432-95-4.
- ^ McAuley J, Leskovec J (2013-10-12). Hidden factors and hidden topics: understanding rating dimensions with review text. ACM. pp. 165–172. doi:10.1145/2507157.2507163. ISBN 978-1-4503-2409-0. S2CID 6440341.
- ^ Jump up to: a b c Ohno-Machado L, Nadkarni P, Johnson K (2013). "Natural language processing: algorithms and tools to extract computable information from EHRs and from the biomedical literature". Journal of the American Medical Informatics Association. 20 (5): 805. doi:10.1136/amiajnl-2013-002214. PMC 3756279. PMID 23935077.
- ^ Jump up to: a b Uzuner Ö, South BR, Shen S, DuVall SL (2011). "2010 i2b2/VA challenge on concepts, assertions, and relations in clinical text". Journal of the American Medical Informatics Association. 18 (5): 552–6. doi:10.1136/amiajnl-2011-000203. PMC 3168320. PMID 21685143.
- ^ Jump up to: a b Sun W, Rumshisky A, Uzuner O (2013). "Evaluating temporal relations in clinical text: 2012 i2b2 Challenge". Journal of the American Medical Informatics Association. 20 (5): 806–13. doi:10.1136/amiajnl-2013-001628. PMC 3756273. PMID 23564629.
- ^ Stubbs A, Kotfila C, Uzuner Ö (December 2015). "Automated systems for the de-identification of longitudinal clinical narratives: Overview of 2014 i2b2/UTHealth shared task Track 1". Journal of Biomedical Informatics. 58 Suppl: S11–9. doi:10.1016/j.jbi.2015.06.007. PMC 4989908. PMID 26225918.
- ^ Albright D, Lanfranchi A, Fredriksen A, Styler WF, Warner C, Hwang JD, Choi JD, Dligach D, Nielsen RD, Martin J, Ward W, Palmer M, Savova GK (2013). "Towards comprehensive syntactic and semantic annotations of the clinical narrative". Journal of the American Medical Informatics Association. 20 (5): 922–30. doi:10.1136/amiajnl-2012-001317. PMC 3756257. PMID 23355458.
- ^ Bada M, Eckert M, Evans D, Garcia K, Shipley K, Sitnikov D, Baumgartner WA, Cohen KB, Verspoor K, Blake JA, Hunter LE (July 2012). "Concept annotation in the CRAFT corpus". BMC Bioinformatics. 13 (1): 161. doi:10.1186/1471-2105-13-161. PMC 3476437. PMID 22776079.
- ^ Holzinger A, Jurisica I (2014), "Knowledge Discovery and Data Mining in Biomedical Informatics: The Future Is in Integrative, Interactive Machine Learning Solutions", Interactive Knowledge Discovery and Data Mining in Biomedical Informatics, Springer Berlin Heidelberg, pp. 1–18, doi:10.1007/978-3-662-43968-5_1, ISBN 9783662439678
- ^ Ratner A, Bach SH, Ehrenberg H, Fries J, Wu S, Ré C (November 2017). "Snorkel: Rapid Training Data Creation with Weak Supervision". Proceedings of the VLDB Endowment. 11 (3): 269–282. arXiv:1711.10160. Bibcode:2017arXiv171110160R. doi:10.14778/3157794.3157797. PMC 5951191. PMID 29770249.
- ^ Ren X, Wu Z, He W, Qu M, Voss CR, Ji H, Abdelzaher TF, Han J (2017-04-03). "Co Type". CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases. International World Wide Web Conferences Steering Committee. pp. 1015–1024. doi:10.1145/3038912.3052708. ISBN 9781450349130. S2CID 1724837.
- ^ Jump up to: a b Erhardt RA, Schneider R, Blaschke C (April 2006). "Status of text-mining techniques applied to biomedical text". Drug Discovery Today. 11 (7–8): 315–25. doi:10.1016/j.drudis.2006.02.011. PMID 16580973.
- ^ Milosevic N, Gregson C, Hernandez R, Nenadic G (February 2019). "A framework for information extraction from tables in biomedical literature". International Journal on Document Analysis and Recognition. 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. doi:10.1007/s10032-019-00317-0. S2CID 62880746.
- ^ Demner-Fushman D, Shooshan SE, Rodriguez L, Aronson AR, Lang F, Rogers W, Roberts K, Tonning J (January 2018). "A dataset of 200 structured product labels annotated for adverse drug reactions". Scientific Data. 5: 180001. Bibcode:2018NatSD...580001D. doi:10.1038/sdata.2018.1. PMC 5789866. PMID 29381145.
- ^ Jump up to: a b Agarwal S, Yu H (December 2010). "Detecting hedge cues and their scope in biomedical text with conditional random fields". Journal of Biomedical Informatics. 43 (6): 953–61. doi:10.1016/j.jbi.2010.08.003. PMC 2991497. PMID 20709188.
- ^ Vandenbussche PY, Cormont S, André C, Daniel C, Delahousse J, Charlet J, Lepage E (2013). "Implementation and management of a biomedical observation dictionary in a large healthcare information system". Journal of the American Medical Informatics Association. 20 (5): 940–6. doi:10.1136/amiajnl-2012-001410. PMC 3756262. PMID 23635601.
- ^ Jannot AS, Zapletal E, Avillach P, Mamzer MF, Burgun A, Degoulet P (June 2017). "The Georges Pompidou University Hospital Clinical Data Warehouse: A 8-years follow-up experience". International Journal of Medical Informatics. 102: 21–28. doi:10.1016/j.ijmedinf.2017.02.006. PMID 28495345.
- ^ Levy B. "Health Care's Semantics Challenge". www.fortherecordmag.com. Great Valley Publishing Company. Retrieved 2018-10-04.
- ^ Goodwin LK, Prather JC (2002). "Protecting patient privacy in clinical data mining". Journal of Healthcare Information Management. 16 (4): 62–7. PMID 12365302.
- ^ Tucker K, Branson J, Dilleen M, Hollis S, Loughlin P, Nixon MJ, Williams Z (July 2016). "Protecting patient privacy when sharing patient-level data from clinical trials". BMC Medical Research Methodology. 16 Suppl 1 (S1): 77. doi:10.1186/s12874-016-0169-4. PMC 4943495. PMID 27410040.
- ^ Graves S (2013). "Confidentiality, electronic health records, and the clinician". Perspectives in Biology and Medicine. 56 (1): 105–25. doi:10.1353/pbm.2013.0003. PMID 23748530. S2CID 25816887.
- ^ Leser U, Hakenberg J (2005-01-01). "What makes a gene name? Named entity recognition in the biomedical literature". Briefings in Bioinformatics. 6 (4): 357–369. doi:10.1093/bib/6.4.357. ISSN 1467-5463. PMID 16420734.
- ^ Krallinger M, Leitner F, Rabal O, Vazquez M, Oyarzabal J, Valencia A. "Overview of the chemical compound and drug name recognition (CHEMDNER) task" (PDF). Proceedings of the Fourth BioCreative Challenge Evaluation Workshop. 2: 6–37.
- ^ Jimeno A, Jimenez-Ruiz E, Lee V, Gaudan S, Berlanga R, Rebholz-Schuhmann D (April 2008). "Assessment of disease named entity recognition on a corpus of annotated sentences". BMC Bioinformatics. 9 Suppl 3 (Suppl 3): S3. doi:10.1186/1471-2105-9-s3-s3. PMC 2352871. PMID 18426548.
- ^ Habibi M, Weber L, Neves M, Wiegandt DL, Leser U (July 2017). "Deep learning with word embeddings improves biomedical named entity recognition". Bioinformatics. 33 (14): i37–i48. doi:10.1093/bioinformatics/btx228. PMC 5870729. PMID 28881963.
- ^ Cohen AM (2006). "An effective general purpose approach for automated biomedical document classification". AMIA ... Annual Symposium Proceedings. AMIA Symposium: 161–5. PMC 1839342. PMID 17238323.
- ^ Jump up to: a b Xu R, Wunsch DC (2010). "Clustering algorithms in biomedical research: a review". IEEE Reviews in Biomedical Engineering. 3: 120–54. doi:10.1109/rbme.2010.2083647. PMID 22275205. S2CID 206522771.
- ^ Rodriguez-Esteban R (December 2009). "Biomedical text mining and its applications". PLOS Computational Biology. 5 (12): e1000597. Bibcode:2009PLSCB...5E0597R. doi:10.1371/journal.pcbi.1000597. PMC 2791166. PMID 20041219.
- ^ Blake C (April 2010). "Beyond genes, proteins, and abstracts: Identifying scientific claims from full-text biomedical articles". Journal of Biomedical Informatics. 43 (2): 173–89. doi:10.1016/j.jbi.2009.11.001. PMID 19900574.
- ^ Jump up to: a b Alamri A, Stevensony M (2015). Automatic identification of potentially contradictory claims to support systematic reviews. 2015 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). IEEE. doi:10.1109/bibm.2015.7359808. ISBN 978-1-4673-6799-8. S2CID 28079483.
- ^ Fleuren WW, Alkema W (March 2015). "Application of text mining in the biomedical domain". Methods. 74: 97–106. doi:10.1016/j.ymeth.2015.01.015. PMID 25641519.
- ^ Karp PD (2016-01-01). "Can we replace curation with information extraction software?". Database. 2016: baw150. doi:10.1093/database/baw150. PMC 5199131. PMID 28025341.
- ^ Krallinger M, Valencia A, Hirschman L (2008). "Linking genes to literature: text mining, information extraction, and retrieval applications for biology". Genome Biology. 9 Suppl 2 (Suppl 2): S8. doi:10.1186/gb-2008-9-s2-s8. PMC 2559992. PMID 18834499.
- ^ Neves M, Leser U (March 2015). "Question answering for biology". Methods. 74: 36–46. doi:10.1016/j.ymeth.2014.10.023. PMID 25448292.
- ^ 의미론 스콜라. (2020) "잡잡한 틈을 헤쳐라:[Open Access] Coronavirus Open Research Dataset"를 다운로드하십시오. Semantics Scholar 웹사이트 검색 2020년 3월 30일
- ^ 브레넌, 패티(2020년 3월 24일) "블로그: 도서관은 글로벌 건강 위기에 어떻게 대처하는가?" 국립 의학 도서관 웹사이트 검색 2020년 3월 30일
- ^ Brainard, Jeffrey (13 May 2020). "Scientists are drowning in COVID-19 papers. Can new tools keep them afloat?". Science AAAS. Retrieved 17 May 2020.
- ^ Uzuner O, Luo Y, Szolovits P (2007-09-01). "Evaluating the state-of-the-art in automatic de-identification". Journal of the American Medical Informatics Association. 14 (5): 550–63. doi:10.1197/jamia.m2444. PMC 1975792. PMID 17600094.
- ^ Uzuner O, Goldstein I, Luo Y, Kohane I (2008-01-01). "Identifying patient smoking status from medical discharge records". Journal of the American Medical Informatics Association. 15 (1): 14–24. doi:10.1197/jamia.m2408. PMC 2274873. PMID 17947624.
- ^ Uzuner O (2009). "Recognizing obesity and comorbidities in sparse data". Journal of the American Medical Informatics Association. 16 (4): 561–70. doi:10.1197/jamia.M3115. PMC 2705260. PMID 19390096.
- ^ Uzuner O, Solti I, Xia F, Cadag E (2010). "Community annotation experiment for ground truth generation for the i2b2 medication challenge". Journal of the American Medical Informatics Association. 17 (5): 519–23. doi:10.1136/jamia.2010.004200. PMC 2995684. PMID 20819855.
- ^ Uzuner O, Solti I, Cadag E (2010). "Extracting medication information from clinical text". Journal of the American Medical Informatics Association. 17 (5): 514–8. doi:10.1136/jamia.2010.003947. PMC 2995677. PMID 20819854.
- ^ Uzuner O, Bodnari A, Shen S, Forbush T, Pestian J, South BR (2012). "Evaluating the state of the art in coreference resolution for electronic medical records". Journal of the American Medical Informatics Association. 19 (5): 786–91. doi:10.1136/amiajnl-2011-000784. PMC 3422835. PMID 22366294.
- ^ Stubbs A, Uzuner Ö (December 2015). "Annotating longitudinal clinical narratives for de-identification: The 2014 i2b2/UTHealth corpus". Journal of Biomedical Informatics. 58 Suppl: S20–9. doi:10.1016/j.jbi.2015.07.020. PMC 4978170. PMID 26319540.
- ^ Stubbs A, Uzuner Ö (December 2015). "Annotating risk factors for heart disease in clinical narratives for diabetic patients". Journal of Biomedical Informatics. 58 Suppl: S78–91. doi:10.1016/j.jbi.2015.05.009. PMC 4978180. PMID 26004790.
- ^ Bunescu R, Ge R, Kate RJ, Marcotte EM, Mooney RJ, Ramani AK, Wong YW (February 2005). "Comparative experiments on learning information extractors for proteins and their interactions". Artificial Intelligence in Medicine. 33 (2): 139–55. CiteSeerX 10.1.1.10.2168. doi:10.1016/j.artmed.2004.07.016. PMID 15811782.
- ^ Islamaj Dogan R, Kim S, Chatr-Aryamontri A, Chang CS, Oughtred R, Rust J, Wilbur WJ, Comeau DC, Dolinski K, Tyers M (2017-01-01). "The BioC-BioGRID corpus: full text articles annotated for curation of protein-protein and genetic interactions". Database. 2017: baw147. doi:10.1093/database/baw147. PMC 5225395. PMID 28077563.
- ^ Hirschman L, Yeh A, Blaschke C, Valencia A (2005). "Overview of BioCreAtIvE: critical assessment of information extraction for biology". BMC Bioinformatics. 6 Suppl 1: S1. doi:10.1186/1471-2105-6-S1-S1. PMC 1869002. PMID 15960821.
- ^ Krallinger M, Morgan A, Smith L, Leitner F, Tanabe L, Wilbur J, Hirschman L, Valencia A (2008). "Evaluation of text-mining systems for biology: overview of the Second BioCreative community challenge". Genome Biology. 9 Suppl 2 (Suppl 2): S1. doi:10.1186/gb-2008-9-s2-s1. PMC 2559980. PMID 18834487.
- ^ Li J, Sun Y, Johnson RJ, Sciaky D, Wei CH, Leaman R, Davis AP, Mattingly CJ, Wiegers TC, Lu Z (2016). "BioCreative V CDR task corpus: a resource for chemical disease relation extraction". Database. 2016: baw068. doi:10.1093/database/baw068. PMC 4860626. PMID 27161011.
- ^ Pyysalo S, Ginter F, Heimonen J, Björne J, Boberg J, Järvinen J, Salakoski T (February 2007). "BioInfer: a corpus for information extraction in the biomedical domain". BMC Bioinformatics. 8 (1): 50. doi:10.1186/1471-2105-8-50. PMC 1808065. PMID 17291334.
- ^ Vincze V, Szarvas G, Farkas R, Móra G, Csirik J (November 2008). "The BioScope corpus: biomedical texts annotated for uncertainty, negation and their scopes". BMC Bioinformatics. 9 Suppl 11 (Suppl 11): S9. doi:10.1186/1471-2105-9-s11-s9. PMC 2586758. PMID 19025695.
- ^ Schwartz AS, Hearst MA (2003). "A simple algorithm for identifying abbreviation definitions in biomedical text". Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing: 451–62. PMID 12603049.
- ^ Rosario B, Hearst MA (2005-10-06). "Multi-way relation classification". Multi-way relation classification: application to protein-protein interactions. Hlt '05. Association for Computational Linguistics. pp. 732–739. doi:10.3115/1220575.1220667. S2CID 902226.
- ^ Davis, Allan Peter; Grondin, Cynthia J; Johnson, Robin J; Sciaky, Daniela; McMorran, Roy; Wiegers, Jolene; Wiegers, Thomas C; Mattingly, Carolyn J (2019-01-08). "The Comparative Toxicogenomics Database: update 2019". Nucleic Acids Research. 47 (D1): D948–D954. doi:10.1093/nar/gky868. ISSN 0305-1048. PMC 6323936. PMID 30247620.
- ^ Verspoor K, Cohen KB, Lanfranchi A, Warner C, Johnson HL, Roeder C, Choi JD, Funk C, Malenkiy Y, Eckert M, Xue N, Baumgartner WA, Bada M, Palmer M, Hunter LE (August 2012). "A corpus of full-text journal articles is a robust evaluation tool for revealing differences in performance of biomedical natural language processing tools". BMC Bioinformatics. 13 (1): 207. doi:10.1186/1471-2105-13-207. PMC 3483229. PMID 22901054.
- ^ Kim JD, Ohta T, Tateisi Y, Tsujii J (2003-07-03). "GENIA corpus--a semantically annotated corpus for bio-textmining". Bioinformatics. 19 (Suppl 1): i180–i182. doi:10.1093/bioinformatics/btg1023. PMID 12855455.
- ^ "GENIA Project". www.geniaproject.org. Retrieved 2018-10-06.
- ^ Bachman JA, Gyori BM, Sorger PK (June 2018). "FamPlex: a resource for entity recognition and relationship resolution of human protein families and complexes in biomedical text mining". BMC Bioinformatics. 19 (1): 248. doi:10.1186/s12859-018-2211-5. PMC 6022344. PMID 29954318.
- ^ Vlachos A, Gasperin C (2006). "Bootstrapping and evaluating named entity recognition in the biomedical domain". BioNLP '06 Proceedings of the Workshop on Linking Natural Language Processing and Biology: Towards Deeper Biological Literature Analysis. BioNLP '06: 138–145. doi:10.3115/1567619.1567652.
- ^ Gasperin C, Karamanis N, Seal R (2007). "Annotation of anaphoric relations in biomedical full text articles using a domain-relevant scheme". Proceedings of DAARC 2007: 19–24.
- ^ Medlock B, Briscoe T (2007). "Weakly Supervised Learning for Hedge Classification in Scientific Literature" (PDF). Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics: 992–999.
- ^ Ding J, Berleant D, Nettleton D, Wurtele E (2001). "Mining MEDLINE: Abstracts, sentences, or phrases?". In Altman RB, Dunker AK, Hunter L, Lauderdale K, Klein TE (eds.). Pacific Symposium on Biocomputing 2002. Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing. World Scientific. pp. 326–337. CiteSeerX 10.1.1.385.6071. doi:10.1142/9789812799623_0031. ISBN 9789810247775. PMID 11928487.
- ^ Kim, Jin-Dong; Ohta, Tomoko; Tsuruoka, Yoshimasa; Tateisi, Yuka; Collier, Nigel (2004). "Introduction to the bio-entity recognition task at JNLPBA". Proceedings of the International Joint Workshop on Natural Language Processing in Biomedicine and Its Applications - JNLPBA '04: 70. doi:10.3115/1567594.1567610.
- ^ "LLLchallenge". genome.jouy.inra.fr. Retrieved 2018-10-06.
- ^ "Medical Subject Headings - Home Page". www.nlm.nih.gov. Retrieved 2018-10-06.
- ^ Bodenreider O (January 2004). "The Unified Medical Language System (UMLS): integrating biomedical terminology". Nucleic Acids Research. 32 (Database issue): D267–70. doi:10.1093/nar/gkh061. PMC 308795. PMID 14681409.
- ^ "Metathesaurus". www.nlm.nih.gov. Retrieved 2018-10-07.
- ^ Johnson AE, Pollard TJ, Shen L, Lehman LW, Feng M, Ghassemi M, Moody B, Szolovits P, Celi LA, Mark RG (May 2016). "MIMIC-III, a freely accessible critical care database". Scientific Data. 3: 160035. Bibcode:2016NatSD...360035J. doi:10.1038/sdata.2016.35. PMC 4878278. PMID 27219127.
- ^ Savova GK, Chapman WW, Zheng J, Crowley RS (2011). "Anaphoric relations in the clinical narrative: corpus creation". Journal of the American Medical Informatics Association. 18 (4): 459–65. doi:10.1136/amiajnl-2011-000108. PMC 3128403. PMID 21459927.
- ^ Hersh W, Buckley C, Leone TJ, Hickam D (1994). OHSUMED: An Interactive Retrieval Evaluation and New Large Test Collection for Research. Springer London. pp. 192–201. doi:10.1007/978-1-4471-2099-5_20. ISBN 9783540198895. S2CID 15094383.
- ^ "Open Access Subset". www.ncbi.nlm.nih.gov. Retrieved 2018-10-06.
- ^ Nelson SJ, Zeng K, Kilbourne J, Powell T, Moore R (2011). "Normalized names for clinical drugs: RxNorm at 6 years". Journal of the American Medical Informatics Association. 18 (4): 441–8. doi:10.1136/amiajnl-2011-000116. PMC 3128404. PMID 21515544.
- ^ McCray AT (2003). "An upper-level ontology for the biomedical domain". Comparative and Functional Genomics. 4 (1): 80–4. doi:10.1002/cfg.255. PMC 2447396. PMID 18629109.
- ^ "The UMLS Semantic Network". semanticnetwork.nlm.nih.gov. Retrieved 2018-10-07.
- ^ McCray AT, Srinivasan S, Browne AC (1994). "Lexical methods for managing variation in biomedical terminologies". Proceedings. Symposium on Computer Applications in Medical Care: 235–9. PMC 2247735. PMID 7949926.
- ^ "The SPECIALIST NLP Tools". lexsrv3.nlm.nih.gov. Retrieved 2018-10-07.
- ^ Jimeno-Yepes AJ, McInnes BT, Aronson AR (June 2011). "Exploiting MeSH indexing in MEDLINE to generate a data set for word sense disambiguation". BMC Bioinformatics. 12 (1): 223. doi:10.1186/1471-2105-12-223. PMC 3123611. PMID 21635749.
- ^ "Word Sense Disambiguation (WSD) Test Collections". wsd.nlm.nih.gov. Retrieved 2018-10-07.
- ^ Franzén K, Eriksson G, Olsson F, Asker L, Lidén P, Cöster J (December 2002). "Protein names and how to find them". International Journal of Medical Informatics. 67 (1–3): 49–61. CiteSeerX 10.1.1.14.2183. doi:10.1016/s1386-5056(02)00052-7. PMID 12460631.
- ^ Mikolov T, Chen K, Corrado G, Dean J (2013-01-16). "Efficient Estimation of Word Representations in Vector Space". arXiv:1301.3781 [cs.CL].
- ^ "BioASQ Releases Continuous Space Word Vectors Obtained by Applying Word2Vec to PubMed Abstracts bioasq.org". bioasq.org. Retrieved 2018-11-07.
- ^ "bio.nlplab.org". bio.nlplab.org. Retrieved 2018-11-07.
- ^ Asgari E, Mofrad MR (2015-11-10). "Continuous Distributed Representation of Biological Sequences for Deep Proteomics and Genomics". PLOS ONE. 10 (11): e0141287. arXiv:1503.05140. Bibcode:2015PLoSO..1041287A. doi:10.1371/journal.pone.0141287. PMC 4640716. PMID 26555596.
- ^ Banerjee I, Madhavan S, Goldman RE, Rubin DL (2017). "Intelligent Word Embeddings of Free-Text Radiology Reports". AMIA ... Annual Symposium Proceedings. AMIA Symposium. 2017: 411–420. arXiv:1711.06968. Bibcode:2017arXiv171106968B. PMC 5977573. PMID 29854105.
- ^ Jump up to: a b Badal VD, Kundrotas PJ, Vakser IA (December 2015). "Text Mining for Protein Docking". PLOS Computational Biology. 11 (12): e1004630. Bibcode:2015PLSCB..11E4630B. doi:10.1371/journal.pcbi.1004630. PMC 4674139. PMID 26650466.
- ^ Papanikolaou N, Pavlopoulos GA, Theodosiou T, Iliopoulos I (March 2015). "Protein-protein interaction predictions using text mining methods". Methods. 74: 47–53. doi:10.1016/j.ymeth.2014.10.026. PMID 25448298.
- ^ Szklarczyk D, Morris JH, Cook H, Kuhn M, Wyder S, Simonovic M, Santos A, Doncheva NT, Roth A, Bork P, Jensen LJ, von Mering C (January 2017). "The STRING database in 2017: quality-controlled protein-protein association networks, made broadly accessible". Nucleic Acids Research. 45 (D1): D362–D368. doi:10.1093/nar/gkw937. PMC 5210637. PMID 27924014.
- ^ Jump up to: a b Liem DA, Murali S, Sigdel D, Shi Y, Wang X, Shen J, Choi H, Caufield JH, Wang W, Ping P, Han J (October 2018). "Phrase mining of textual data to analyze extracellular matrix protein patterns across cardiovascular disease". American Journal of Physiology. Heart and Circulatory Physiology. 315 (4): H910–H924. doi:10.1152/ajpheart.00175.2018. PMC 6230912. PMID 29775406.
- ^ Kankar P, Adak S, Sarkar A, Murari K, Sharma G (11 April 2002). MedMeSH summarizer: text mining for gene clusters. InProceedings of the 2002 SIAM International Conference on Data Mining. Society for Industrial and Applied Mathematics. pp. 548–565. CiteSeerX 10.1.1.215.6230. doi:10.1137/1.9781611972726.32. ISBN 978-0-89871-517-0.
- ^ Pyysalo S, Airola A, Heimonen J, Björne J, Ginter F, Salakoski T (April 2008). "Comparative analysis of five protein-protein interaction corpora". BMC Bioinformatics. 9 Suppl 3 (Suppl 3): S6. doi:10.1186/1471-2105-9-s3-s6. PMC 2349296. PMID 18426551.
- ^ Kim S, Kwon D, Shin SY, Wilbur WJ (February 2012). "PIE the search: searching PubMed literature for protein interaction information". Bioinformatics. 28 (4): 597–8. doi:10.1093/bioinformatics/btr702. PMC 3278758. PMID 22199390.
- ^ Yu S, Van Vooren S, Tranchevent LC, De Moor B, Moreau Y (August 2008). "Comparison of vocabularies, representations and ranking algorithms for gene prioritization by text mining". Bioinformatics. 24 (16): i119–25. doi:10.1093/bioinformatics/btn291. PMID 18689812.
- ^ Hulsegge I, Woelders H, Smits M, Schokker D, Jiang L, Sørensen P (May 2013). "Prioritization of candidate genes for cattle reproductive traits, based on protein-protein interactions, gene expression, and text-mining". Physiological Genomics. 45 (10): 400–6. doi:10.1152/physiolgenomics.00172.2012. PMID 23572538.
- ^ Krallinger M, Leitner F, Valencia A (2010). "Analysis of biological processes and diseases using text mining approaches". Bioinformatics Methods in Clinical Research. Methods in Molecular Biology. 593. pp. 341–82. doi:10.1007/978-1-60327-194-3_16. ISBN 978-1-60327-193-6. PMID 19957157.
- ^ Tao F, Zhuang H, Yu CW, Wang Q, Cassidy T, Kaplan LR, Voss CR, Han J (2016). "Multi-Dimensional, Phrase-Based Summarization in Text Cubes" (PDF). IEEE Data Eng. Bull. 39 (3): 74–84.
- ^ Thomas P, Starlinger J, Vowinkel A, Arzt S, Leser U (July 2012). "GeneView: a comprehensive semantic search engine for PubMed". Nucleic Acids Research. 40 (Web Server issue): W585–91. doi:10.1093/nar/gks563. PMC 3394277. PMID 22693219.
- ^ Brown P, Zhou Y (September 2017). "Biomedical literature: Testers wanted for article search tool". Nature. 549 (7670): 31. Bibcode:2017Natur.549...31B. doi:10.1038/549031c. PMID 28880292.
- ^ Ohno-Machado L, Sansone SA, Alter G, Fore I, Grethe J, Xu H, Gonzalez-Beltran A, Rocca-Serra P, Gururaj AE, Bell E, Soysal E, Zong N, Kim HE (May 2017). "Finding useful data across multiple biomedical data repositories using DataMed". Nature Genetics. 49 (6): 816–819. doi:10.1038/ng.3864. PMC 6460922. PMID 28546571.
- ^ Perez-Riverol Y, Bai M, da Veiga Leprevost F, Squizzato S, Park YM, Haug K, et al. (May 2017). "Discovering and linking public omics data sets using the Omics Discovery Index". Nature Biotechnology. 35 (5): 406–409. doi:10.1038/nbt.3790. PMC 5831141. PMID 28486464.
- ^ Ide NC, Loane RF, Demner-Fushman D (2007-05-01). "Essie: a concept-based search engine for structured biomedical text". Journal of the American Medical Informatics Association. 14 (3): 253–63. doi:10.1197/jamia.m2233. PMC 2244877. PMID 17329729.
- ^ Lee HJ, Dang TC, Lee H, Park JC (July 2014). "OncoSearch: cancer gene search engine with literature evidence". Nucleic Acids Research. 42 (Web Server issue): W416–21. doi:10.1093/nar/gku368. PMC 4086113. PMID 24813447.
- ^ Jenssen TK, Laegreid A, Komorowski J, Hovig E (May 2001). "A literature network of human genes for high-throughput analysis of gene expression". Nature Genetics. 28 (1): 21–8. doi:10.1038/ng0501-21. PMID 11326270. S2CID 8889284.
- ^ Masys DR (May 2001). "Linking microarray data to the literature". Nature Genetics. 28 (1): 9–10. doi:10.1038/ng0501-9. PMID 11326264. S2CID 52848745.
- ^ Doms A, Schroeder M (July 2005). "GoPubMed: exploring PubMed with the Gene Ontology". Nucleic Acids Research. 33 (Web Server issue): W783–6. doi:10.1093/nar/gki470. PMC 1160231. PMID 15980585.
- ^ Turchin, Alexander; Florez Builes, Luisa F. (2021-03-19). "Using Natural Language Processing to Measure and Improve Quality of Diabetes Care: A Systematic Review". Journal of Diabetes Science and Technology. 15 (3): 553–560. doi:10.1177/19322968211000831. ISSN 1932-2968. PMC 8120048. PMID 33736486.
- ^ Wang Y, Wang L, Rastegar-Mojarad M, Moon S, Shen F, Afzal N, Liu S, Zeng Y, Mehrabi S, Sohn S, Liu H (January 2018). "Clinical information extraction applications: A literature review". Journal of Biomedical Informatics. 77: 34–49. doi:10.1016/j.jbi.2017.11.011. PMC 5771858. PMID 29162496.
- ^ Friedman C (1997). "Towards a comprehensive medical language processing system: methods and issues". Proceedings: 595–9. PMC 2233560. PMID 9357695.
- ^ Savova GK, Masanz JJ, Ogren PV, Zheng J, Sohn S, Kipper-Schuler KC, Chute CG (2010). "Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications". Journal of the American Medical Informatics Association. 17 (5): 507–13. doi:10.1136/jamia.2009.001560. PMC 2995668. PMID 20819853.
- ^ Soysal E, Wang J, Jiang M, Wu Y, Pakhomov S, Liu H, Xu H (2018). "CLAMP - a toolkit for efficiently building customized clinical natural language processing pipelines". Journal of the American Medical Informatics Association. 25 (3): 331–336. doi:10.1093/jamia/ocx132. PMC 7378877. PMID 29186491.
- ^ Fries J, Wu S, Ratner A, Ré C (2017-04-20). "SwellShark: A Generative Model for Biomedical Named Entity Recognition without Labeled Data". arXiv:1704.06360 [cs.CL].
- ^ Ye Z, Tafti AP, He KY, Wang K, He MM (2016-09-29). "SparkText: Biomedical Text Mining on Big Data Framework". PLOS ONE. 11 (9): e0162721. Bibcode:2016PLoSO..1162721Y. doi:10.1371/journal.pone.0162721. PMC 5042555. PMID 27685652.
- ^ Tseytlin E, Mitchell K, Legowski E, Corrigan J, Chavan G, Jacobson RS (January 2016). "NOBLE - Flexible concept recognition for large-scale biomedical natural language processing". BMC Bioinformatics. 17 (1): 32. doi:10.1186/s12859-015-0871-y. PMC 4712516. PMID 26763894.
- ^ "BioNLP - ACL Anthology". aclanthology.coli.uni-saarland.de. Retrieved 2018-10-17.
- ^ "ISMB Proceedings". www.iscb.org. Retrieved 2018-10-18.
- ^ "IEEE Xplore - Conference Home Page". ieeexplore.ieee.org. Retrieved 2018-11-08.
- ^ "dblp: CIKM". dblp.uni-trier.de. Retrieved 2018-10-17.
- ^ "PSB Proceedings". psb.stanford.edu. Retrieved 2018-10-18.
- ^ "dblp: Practical Applications of Computational Biology & Bioinformatics". dblp.org. Retrieved 2018-10-17.
- ^ "Text REtrieval Conference (TREC) Proceedings". trec.nist.gov. Retrieved 2018-10-17.
추가 읽기
- Krallinger M, Valencia A (2005). "Text-mining and information-retrieval services for molecular biology". Genome Biology. 6 (7): 224. doi:10.1186/gb-2005-6-7-224. PMC 1175978. PMID 15998455.
- Hoffmann R, Krallinger M, Andres E, Tamames J, Blaschke C, Valencia A (May 2005). "Text mining for metabolic pathways, signaling cascades, and protein networks". Science's STKE. 2005 (283): pe21. doi:10.1126/stke.2832005pe21. PMID 15886388. S2CID 15301069.
- Krallinger M, Erhardt RA, Valencia A (March 2005). "Text-mining approaches in molecular biology and biomedicine". Drug Discovery Today. 10 (6): 439–45. doi:10.1016/S1359-6446(05)03376-3. PMID 15808823.
- BLIMP(Biomedical Literacy Mining Publishes) 웨이백머신에 2004-08-29 보관: (bio) 의료 텍스트 마이닝에 대한 포괄적이고 정기적으로 업데이트되는 간행물 색인