However, the exploration of such general-domain LLMs in the medical field remain relatively untapped [2], despite the immense potential they hold for transforming healthcare communication and decision-making.
의료 분야는 다른 LLM 영역에 비해 덜 연구됨.
By fine-tuning the large language dialogue model on the data of doctor-patient conversations, the application of the model in the medical field can be significantly spurred.
의사와 환자 대화 데이터 셋을 fine-tuning함.
Therefore, we collected and organized a database, containing about 700 diseases with their relative symptoms, medical tests, and recommended medications.
세계적인 평균에 맞는 병 데이터셋을 모으고 정리함. 700가지 병에 대한 증상과 테스트 그리고 추천하는 약을 알려주는 데이터셋임.
we input tuples from the disease database as separate prompts into the ChatGPT API to automatically generate instructions and dialogue data. Notably, our prompts to the ChatGPT API contain names of diseases, corresponding symptoms, recommended tests, and reference medications, and the ChatGPT generate patientphysician dialogues out of these prompts. Correspondingly, our fine-tuned ChatDoctor not only can learn ChatGPT’s conversational fluency, but also learn medical-domain expertise from the curated dataset to offer more accurate responses to medical instructions.
저자는 ChatGPT API에 prompts로 병 데이터셋을 입력하고 dialogue data와 instructions을 자동으로 생성함. 병의 명을 포함한 prompts에 상응하는 증상, 추천 테스트 그리고 선호하는 약 그리고 ChatGPT가 환자-의사 대화를 생성함. 이에 상응하는 저자의 fine-tuned ChatDoctor는 ChatGPT의 대화만 배운 게 아닌 실제 의료 전문가 데이터셋을 학습함. 그래서 이 실제 데이터와 새로운 데이터셋을 만들어 InstructorDoctor 5K를 만듦.