SimpleQA: OpenAI entwickelt Benchmark für Halluzinationen

KI-Modelle haben Schwierigkeiten mit Faktentreue und kurzen, präzisen Antworten. OpenAI will das nun messbar und vergleichbar machen.