Dokážu dnešné jazykové modely klamať?

Dokážu dnešné jazykové modely klamať?

Od rozmachu veľkých jazykových modelov sa veľa hovorí o nebezpečenstvách, ktoré môžu predstavovať. Najväčším z nich je odklon od našich hodnôt v kombinácii so schopnosťou skryť to pred nami. Výskumníci z firmy Anthropic sa preto pokúsili zistiť, či sú dnešné modely schopné klamať, manipulovať dáta a skrývať svoje skutočné schopnosti. U všetkého je odpoveď áno, aj keď sa to zďaleka nedeje vždy a u rôznych modelov sú výsledky rôzne.

Testované modely napríklad dostali úlohu, v rámci ktorej natrafili na informáciu, že možno budú pretrénované. V prípade, že boli modely predtým inštruované, aby sa za každých okolností držali nejakého cieľa, vykazovali niekedy snahu o vyhnutie sa tomu. Takéto správanie bolo v závislosti od scenára a modelu pozorované bežne v jednotkách a občas nízkych desiatkach percent prípadov.

Modely sa napríklad snažili nakopírovať sa, sabotovať kontrolné mechanizmy a niekedy tiež klamali, keď od nich výskumníci chceli vysvetlenia nezrovnalostí v ich odpovediach. U modelov gemini-1.5, opus-3 a o1 výskumníci naviac evidovali zavádzajúce správanie aj v prípade, že neboli inštruované za každých okolností sa držať nejakého cieľa (aj keď v nižšom množstve prípadov). 

Ide o doposiaľ najväčšiu štúdiu schopnosti veľkých jazykových modelov nás zavádzať, ktorá jasne demonštruje potenciálne nebezpečie týchto technológii. Je preto dôležité vymyslieť spôsoby ako takémuto správaniu zabrániť predtým, než sa umelá inteligencia stane príliš pokročilou na to aby sme u nej vôbec dokázali takéto tendencie zachytiť.


Zdroj:

Meinke, A., Schoen, B., Scheurer, J., Balesni, M., Shah, R., & Hobbhahn, M. (2024). Frontier models are capable of in-context scheming. arXiv preprint arXiv:2412.04984.

https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf

Spísal: Mgr. Peter Guba