Lecture Notes on Detecting Hallucinations in LLM Applications

Introduction to the Speaker and Topic

LLMs: Large Language Models used for processing natural language with significant advancements.
Problem: LLMs can hallucinate, i.e., generate false information which can:
- Spread misinformation.
- Erode trust and brand reputation.
- Lead to legal and customer trust issues.
Causes: Bias inherent in LLMs, user-framing issues.

Terminology:
- Application: LLM-based application (e.g., chatbot, summarization system).
- Measurement System: System for measuring the LLM application.

Zero Context
- Basic chatbot experience with small inputs/outputs.
- Challenges: External data source needed for factual accuracy.
- Susceptible to user framing.
RAG Q&A (Retrieval Augmented Generation)
- Combines user input with retrieved text for grounded answers.
- Challenges: Multiple sources of error (LLM hallucination, incorrect retrieved data).
Summarization
- Large input, smaller output.
- Complex accuracy concept.
- Challenges: Maintaining factual integrity when summarizing potentially false articles.

Challenges:
- Lack of established metrics or conventions.
- Focusing on factual accuracy over text fluency.
Measurement Strategies:
- Pythia Strategy: Extracts claims as triples for evaluation.
- Grading Strategy: Simple letter grade evaluation.
- Lynx Strategy: Pass/fail evaluation focused on faithfulness.

Comparison with NLP Benchmarking:
- Old benchmarks specialized by tasks/domains.
- New LLM benchmarks murkier, less established.

Summarization Data Sets:
- CNN/Daily Mail, BBC articles.
- Expert vs. Mechanical Turker labels.
RAG Q&A Data Set:
- Based on binary pass/fail labels.

Data Comparison: Compare distribution of open data sets with your own.
Industry-Specific Use: Pythia can be adapted for various industries, though specialization is beneficial.