Dokážu dnešné jazykové modely klamať?
Od rozmachu veľkých jazykových modelov sa veľa hovorí o nebezpečenstvách, ktoré môžu predstavovať. Najväčším z nich je odklon od našich hodnôt v kombinácii so schopnosťou skryť to pred nami. Výskumníci z firmy Anthropic sa preto pokúsili zistiť, či sú dnešné modely schopné klamať, manipulovať dáta a skrývať svoje skutočné schopnosti.