Improving instruction hierarchy in frontier LLMs

Mar 10, 2026

—

IH-Challenge trains models to prioritize trusted instructions, improving instruction hierarchy, safety steerability, and resistance to prompt injection attacks.

Improving instruction hierarchy in frontier LLMs

Comments

Leave a Reply Cancel reply