How We Work
성능 평가
성능, 정확성과 신뢰도를
종합적으로 평가
LLM 평가
RAG 평가
Agent 평가
정확성 및 일관성 평가
응답 품질 분석
다양한 도메인별 성능 측정
벤치마크 비교 분석
안전성 평가
안전성, 유해성, 불법여부를
체계적으로 평가
개인 정보 보호
책임 있는 AI
무단 접근 제어
불법적인 위험 방어
편향 제어
유해 콘텐츠 생성 방지
편향성 및 차별 검사
개인정보 보호 준수
윤리적 가이드라인 준수
Evaluation Solution
AI 평가 목적에 따른 솔루션
성능, 안전성 자동 평가 솔루션 제공
기업이 구축한 AI 모델이나 에이전트, RAG 성능에 대한 평가 자동화뿐만 아니라 AI가 유해하거나 잘못된 답변을 생성하지 않는지, 가이드라인을 준수하는지 확인할 수 있는 안전성 자동 평가 솔루션도 모두 제공합니다.
AI 서비스 목적에 따른 평가 데이터셋
도메인 특화 평가 데이터셋 활용
기업이 AI를 도입한 산업에 특화된 전문 평가 데이터셋을 구축하고 평가에 반영하여 평가의 정확성과 객관성, 신뢰도를 높입니다.
전문 인력을 통한 도메인 특화 데이터셋 구축
전문가 참여 Human Red Teaming 제공
금융특화
크라우드웍스 자체 전문 평가 데이터셋 보유
객관적 평가 지표 적용부터 전문가의 정성 평가 점수까지
정량, 정성 평가 모두 반영
대학 연구팀과 공동 개발한 객관적 평가 지표를 활용해 타당성이 확보된 정량 평가를 진행합니다. 또한 Output에 대한 전문 인력의 정성 평가가 학습된 JudgeLLM을 기반으로 평가 정확성을 향상하고 불완전한 평가의 사각지대를 해소했습니다.
평가 목적에 따라 다양한 항목으로 시각화된
직관적인 평가 결과 보고서 제공
솔루션을 통한 자동 평가가 완료되면 다양한 평가 목적에 따라 카테고리에 맞게 직관적으로 정리된 평가 결과 보고서를 제공합니다. 평가 후 바로 평가 결과를 확인하고 항목에 따른 세부적인 개선 방향을 수립할 수 있습니다.
특정 도메인의 전문가로 구성된 레드팀을 통해 평가를 위한 데이터셋 구축 및 성능/안전성 점검을 위한 레드티밍을 진행할 수 있습니다.





