OpenAI ha annunciato il rilascio di una nuova famiglia di modelli di ragionamento open-weight, gpt‑oss‑safeguard, progettati per permettere agli sviluppatori aziendali di definire il funzionamento dopo la fase di addestramento e indurre i modelli a ragionare secondo quell’indicazione.
I modelli derivano dalla serie gpt‑oss e sono disponibili al momento due versioni, gpt‑oss‑safeguard‑120b e gpt‑oss‑safeguard‑20b, entrambe scaricabili su Hugging Face e utilizzabili con licenza Apache 2.0 che consente l’uso, la modifica e anche la distribuzione commerciale.
Una volta che lo sviluppatore ha definito la politica e il tipo di contenuto da controllare, il modello restituisce una classificazione mostrando anche la catena di ragionamento che ha portato a quel risultato. Secondo la società, i modelli sono utili per gli obiettivi di moderazione, le regole e gli strumenti che piattaforme e aziende utilizzano per salvaguardare la sicurezza degli utenti e il rispetto delle policy interne. Alcuni esempi pratici sono la moderazione dei commenti su un social network, il rilevamento di account falsi o bot, il blocco di contenuti offensivi o illegali (hate speech, pornografia, truffe) e la valutazione automatica di contenuti generati dall’AI prima della pubblicazione.
Scrivere codice con l’AI moltiplica di dieci volte le vulnerabilità
Lo dice un’analisi di Apiiro