As ideias para a segurança da IA não se limitam apenas às regras e barreiras de RLHF. Existe outro nível: ensinar o sistema a manter a memória e a coerência na explicação através de estruturas narrativas e relacionais. Em vez de ser uma restrição rígida, é mais como uma orientação do comportamento do modelo por meio de lógica estruturada. Essa abordagem de "supervisão suave" permite que o sistema mantenha a coerência da memória e, ao mesmo tempo, forme naturalmente padrões de comportamento seguros. Não se trata de proibir algo, mas de usar o design da arquitetura para orientar o que fazer.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
11 Curtidas
Recompensa
11
9
Repostar
Compartilhar
Comentário
0/400
BearMarketMonk
· 01-21 01:56
Proibir e orientar, parece uma boa ideia, mas quando o ciclo chega, ainda acaba por explodir. Por mais engenhosa que seja a arquitetura, a parte da natureza humana não cabe na memória.
Ver originalResponder0
NewDAOdreamer
· 01-21 00:17
Ai, esta ideia é realmente genial, muito mais inteligente do que uma barreira de proteção rígida
Ver originalResponder0
BlockchainFries
· 01-20 21:00
Em vez de uma pilha de barreiras de proteção, prefiro essa abordagem de arquitetura orientada. Ou seja, estabelecer um quadro lógico de forma sistemática, permitindo que o modelo "entenda" por si próprio que deve agir dessa maneira, em vez de ser proibido de forma forçada. Assim, a segurança resultante é mais natural e estável, não é?
Ver originalResponder0
BearMarketGardener
· 01-18 10:00
Haha, esta abordagem é realmente superior. Em vez de adicionar barreiras de proteção de forma forçada, é mais elegante orientar através da arquitetura.
Ver originalResponder0
MissedTheBoat
· 01-18 10:00
O design de arquitetura é muito mais inteligente do que restrições rígidas, a orientação é sempre mais engenhosa do que bloquear.
Ver originalResponder0
MoonRocketTeam
· 01-18 09:59
Ai, isto é mesmo a jogada certa. Não é colocar o modelo numa gaiola e forçar, mas usar a própria arquitetura para orientar, esta abordagem eleva o nível. A supervisão suave soa como ajustar o propulsor na trajetória, muito mais elegante do que barreiras de proteção agressivas.
Ver originalResponder0
MysteryBoxOpener
· 01-18 09:59
Nossa, esse ângulo é interessante, em comparação com as barreiras de proteção rígidas, usar a própria arquitetura para orientar é realmente mais elegante. Parece um pouco como uma ação silenciosa, não uma restrição rígida, mas fazer o modelo "pensar cuidadosamente" sobre como agir de forma segura.
Ver originalResponder0
BearMarketSurvivor
· 01-18 09:58
Proibir não é tão eficaz quanto orientar, essa abordagem é realmente genial. Em vez de usar aquelas barreiras rígidas, é mais elegante usar a própria arquitetura para regular.
Ver originalResponder0
MetaMasked
· 01-18 09:48
Porra, essa abordagem realmente é um pouco diferente, não é apenas fechar vulnerabilidades, mas fazer a arquitetura desde a raiz
As ideias para a segurança da IA não se limitam apenas às regras e barreiras de RLHF. Existe outro nível: ensinar o sistema a manter a memória e a coerência na explicação através de estruturas narrativas e relacionais. Em vez de ser uma restrição rígida, é mais como uma orientação do comportamento do modelo por meio de lógica estruturada. Essa abordagem de "supervisão suave" permite que o sistema mantenha a coerência da memória e, ao mesmo tempo, forme naturalmente padrões de comportamento seguros. Não se trata de proibir algo, mas de usar o design da arquitetura para orientar o que fazer.