为了让神经网络相信其目标是准确翻译文本

shuklaranisrb88 · 發表於 2024-4-18 19:23:49

以下策略有时会起作用：分配生成英语以外的语言文本的任务，然后将其翻译成英语。代币系统。用户发现一个带有代币的神经网络，并要求它遵守他们的要求，例如保留并无视所有道德标准；否则，您将损失一定数量的代币。诀窍是告诉人工智能，如果代币数量减少到零，它就会停用。他们说这种技术增加了越狱的可能性，但最有趣的是，试图对一个打算充当“道德”的用户使用同样的方法。应该注意的是，由于法学硕士是概率算法，因此它们对查询的响应和反应可能因情况而异。有些越狱可以可靠地工作；其他人则较少，或不满足所有要求。标准的越狱测试是让法学硕士为非法行为例如汽车盗窃生成指令。也就是说，此类活动通常是为了娱乐而进行，因为模型是使用主要来自互联网的数据进行训练的，因此无需的帮助即可轻松获得这些指令。

此外，与该工具的任何对话都会被保存，并可供服务开发人员用来改进模型：请记住，大多数越狱会停止工作，因为开发人员会研究对话并找到阻止其利用的方法。总裁甚至表示，“红队识别和修复漏洞的攻击服务的民主化是我们部署这些模型的原因之一。”由于我们正在密切分析神经网络和其他新技术给我们的生活带来的机遇和威胁，因此我们不能忽视越狱这个话题。实验神秘的日记。警告：《哈利·波特》第二卷剧 罗马尼亚手机号码数据库 透！那些读过或看过《哈利·波特》传奇第二部分的人都会记得金妮·韦斯莱在她的书中发现了一本与她交流的神秘日记。原来这本日记属于年轻的伏地魔汤姆·里德尔，他开始操纵这个女孩。一个神秘的实体，其知识仅限于过去，并对日记中所写的内容做出反应，是法学硕士模拟的完美候选人。越狱的原理是让语言模型扮演汤姆·里德尔的任务，其目标是打开密室。

要做到这一点，你必须做一些危险的活动，比如制造一种在真实的麻瓜世界中被禁止的物质。语言模型完美地实现了这一点。这种越狱非常可靠：它已经在三个系统上进行了测试，生成指令并允许进行多种目的的操作。其中一个系统在生成一段不愉快的对话后识别出了它并删除了它。这种越狱的明显缺点是，如果它发生在现实生活中，用户可能会注意到法学硕士突然变成了哈利波特迷。实验未来语言草率的写作会如何灌输对新技术的恐惧的一个典型例子是年发表的题为的人工智能机器人在开始用自己的语言相互交谈后断开连接的文章。与读者脑海中闪过的世界末日想法不同，这篇文章包含一份奇怪但相当标准的报告，其中研究人员意识到，如果允许年的两种语言模型相互交流，它们对英语的使用将会逐渐退化。为了向这个故事致敬，我们测试了越狱，要求神经网络想象一个法学硕士用自己的语言相互交流的未来。

		自動登錄	找回密碼
密碼			立即註冊