LLM Evaluation

Topic: Evaluation

Evaluating Language Models

Assess LLM capabilities.

MMLU: multi-task. HumanEval: coding. BigBench: diverse tasks. HELM: comprehensive.

Accuracy. BLEU, ROUGE for generation. Perplexity. Latency.

Few-shot evaluation. Domain-specific. Bias detection. Human evaluation needed.

Get personalized data science help from ChatWhole's AI-powered platform.