라이브러리

AI 활용신약DB 상세

ChEBI-20 2023-12-13
조회수 214

PubChem과 ChEBI를 기반으로 가공한 데이터베이스 입니다.

자연어 쿼리를 사용한 교차 모달 분자 검색을 위해 구성된 데이터세트이며, 참조 텍스트 정보(예: SMILES 문자열, 그래프 또는 기타 동등한 표현으로 표시됨)가 없는 텍스트 쿼리와 분자 목록이 주어지면 쿼리에 해당하는 분자를 검색하기 위한 데이터입니다.


8:1:1(train:validation:test)로 분할된 33,010개의 분자 쌍으로 이루어져 있습니다.


https://github.com/cnedwards/text2mol

https://aclanthology.org/2021.emnlp-main.47/

  • Captioning de novo generation retrieval PubChem ChEBI