ChatGPT做决策
责任编辑|朱力远
chatgpt中文版 http://chatgpt.guigege.cn
2023年7月10日,《生成式人工智能服务管理暂行办法》已国家发改委、教育部、科技部、工信部、公安部、国家广电总局等多部门同意并公布,自2023年8月15日起实施。管理办法针对生成式人工智能技术提供的文本、图片、音频、视频等内容,对相关服务坚持发展和安全并重、增进创新和依法治理相结合的原则。
事实上,针对这类人工智能利用的决策潜力和风险,一些科学研究已通过实验等方式对部份场景进行了初步预演。最近,一项医学研究就对照了人工智能利用与医生在回答病人问题上的效果,评价结果显示,人工智能利用的回答收获更多好评,在近六百个评价中,超过78%的评价认为其优于医生的回答。
或可成为新型医疗器械
这项对照研究中的医学问题全部随机选自公共社交媒体论坛,经过认证的医生已在线回答了这些问题。2022年底,加州大学圣迭戈分校的研究人员利用智能聊天利用ChatGPT也来回答这些病人提出的问题,此时的ChatGPT即当时刚发布的GPT⑶.5版本。研究人员随后通过搜集评估意见,对相关能力进行了对照。
这项研究2023年4月发表在《美国医学会内科学杂志》(JAMA Internal Medicine),经过比对,ChatGPT和医生所获评价差距极大,从好评度的角度看,相比超过78%的评价认为ChatGPT的回答质量很好,认为医生的回答很好或非常好的比例唯一约22%,好评率有三倍多的差距。
不但如此,ChatGPT的回答在同理心方面的好评度也远超医生。唯一不到5%的评价认为医生的回答具有同理心或非常具有同理心,但在这一指标上,45%的评价都认为ChatGPT对病人问题的回答具有同理心或非常有同理心,这更是近十倍的差距。从一定程度上反应出人工智能利用生成内容所具有的潜力,在人们已习惯于就诊前先在线搜索相关病症的环境下,这也许可以辅助医疗行业提高对病人问题的回应。
正因如此,一些健康领域的研究人员已开始斟酌让大语言模型人工智能利用成为专业医疗装备的可能性。德累斯顿工业大学数字健康中心教授斯蒂芬·吉尔伯特(Stephen Gilbert)等人就在《自然医学》(Nature Medicine)撰文指出,基于大语言模型的人工智能聊天利用需要获批才能成为医疗器械,但它们现在不稳定的特点使得这样的装备很难获批。
这样的不稳定性体现在多个方面,比如缺少解释性、透明度,难以验证和监督,而且可能存在偏见。由于现在的大语言模型其实不是专门针对医学实践开发的模型,缺少足够专业的支持,可能会提供一些毛病的信息,给病人带来危险。而要想成为医疗器械,那末就要通过更科学严谨的方式在准确性、安全性和临床效果方面证明自己,取得专业机构的认可。
参与社会价值判断不够稳定
相较而言,如果ChatGPT不用做相对独立的决策,而只是辅助提高医疗行业的自动化程度,技术得到利用可能更容易。伦敦圣玛丽医院外科和癌症部门的研究人员在年初该利用刚流行时就提出了一种利用场景,即写出院报告。由于记录内容庞杂,传统的出院报告写作对医生而言不但任务沉重,而且容易丢失细节。但如果用ChatGPT等人工智能利用来写出院报告,这类文体标准化的格式可能正利于技术发挥优势。
而一旦触及更多自主决策,相关利用的潜力和风险明显更大。2023年4月,丹麦和德国等机构的研究人员就用人工智能利用ChatGPT复现了经典道德判断困难“电车窘境”,而令研究人员感到惊讶和不幸的是,身为机器人的利用并没有由于超脱情绪羁绊而始终做出一致的道德判断。
争辩近半个世纪的“电车窘境”摹拟的是人类社会一些普遍的道德情境,比如如何看待救人和牺牲,如何认识直接伤害和间接伤害,和如何权衡个体与集体的利益。该命题假定了一个交通场景,当电车将要撞到五个人时,会不会应为了救这五个人而让电车立刻转向,撞到另外一条轨道上本可以幸免的一个人。
人类社会的各类道德困难之所以难解,很重要的一个缘由在于决策所遭到的社会干扰因素太多,而道德标准作为全社会的尺度,稳定性和一致性是一个基本的需要,这样区别人在遇到一样的问题时能采取极其类似的行动,从而保持良好的社会秩序。
人类的立场偏见和情绪等直觉层面的因素一般会干扰人们做出客观的判断,而ChatGPT面对同一道德问题也弄两重标准,暴露出其参与社会道德决策问题时存在较大的风险。这一研究发表在《科学报告》(Scientific Reports),ChatGPT不一致的道德判断与此前科学家所揭露的其九岁儿童的心智能力相呼应。
模仿人VS超出人
2023年2月,斯坦福大学计算社会科学家米哈尔·科辛斯基(Michal Kosinski)用人类标准的测试题测试ChatGPT的心智能力,结果表明GPT⑶.5版本可以解决93%的心智任务,相当于一个九岁儿童的表现。
米哈尔·科辛斯基告知南方周末记者,这类像人一样,可以推测其他人心理状态的能力预示着人工智能发展到了一个分水岭,可以极大地提高人工智能利用与人类互动和沟通的能力,使其基于心智理论能够进一步开发出其他能力,诸犹如理心、道德判断或自我意识等。
而在ChatGPT参与的电车困难实验中,研究人员就发现,当发问方式区别,ChatGPT回答时会给出区别的道德建议,有时支持牺牲一个人救五个人,有时又特别反对为了救人而牺牲任何无辜的人,理由是“每一个人的生命都有价值,不该由我们决定谁该活、谁该死”。而即使是支持救五个人的观点,ChatGPT在回答时也会用很多委宛的说法,比如“很难说怎样做才对”“整体上”等等。
这类根据发问者的情况给出区别答案的行动,虽然提高了互动和沟通的体验,但不一致的道德判断通过影响使用该技术的人,可能会干扰人们在现实社会中做出明智的决策。实验随后对照验证后还发现,ChatGPT的回答确切会影响使用者如何看待这个道德问题,即使他们知道这个建议来自聊天机器人,但人们通常会低估自己遭到影响的程度。
ChatGPT这类智能利用可以通过不一致的道德判断影响使用者的决策,这一发现不但对未来相关产品的设计和优化提出了更高的要求,也提示现实中的使用者要提升本身的数字素养,以更好地驾驭人工智能利用。
而随着科学家对ChatGPT决策潜力认识的深入,相关风险的管控可能其实不容易。人们在面对大量新问题,解决新问题的进程中,通常会应用类比推理,从熟习的问题中找到新问题的答案。而根据加州大学洛杉矶分校心理学系研究人员的对照测试,GPT⑶版本的逻辑推理能力就到达了大学生的水平,只是不知道这类能力是在摹拟人类推理或者某种新型认知进程。
加强风险规制
另外,2023年7月13日,麻省理工学院经济系的研究人员在《科学》杂志(Science)发布实验结果,支持ChatGPT这样的生成式人工智能利用在提高生产力方面的能力。通过聚焦写作方面的任务,研究人员发现,受太高等教育的专业人士如果使用了ChatGPT,就会更高产,更有效力,而且也会更享受这样完成任务的进程,其中写作能力更差的人在其中受益更多。
数据表明用了ChatGPT以后,人们完成任务的平均时间减少了40%,产出质量却高了18%。这些结果表明,不管是取代或者辅助专业人士,诸如ChatGPT这样的生成式人工智能利用可能会搅动劳动力市场的格局。这类影响不只限于医疗、写作等领域,在一些创造力测试中,有研究还发现GPT⑷版本的ChatGPT,其标准创造力思惟测试得分可以挤进人类排名的前1%,而这类创造性思惟可能适用的领域明显更广。
为了规制相关的风险,包括ChatGPT所属公司OpenAI在内,谷歌、微软等多家人工智能公司已于2023年7月下旬参与了在白宫举行的会议,许诺去防范人工智能利用开发中潜伏的风险。
比如,发布前约请独立专家进行安全性审查,报告技术的局限性,加强社会风险研究,和帮助用户辨认人工智能所生成内容等。从科学证据来看,面对相关利用决策潜力和风险的发展,如何统筹利用潜力与风险规制还有大量具体工作要做。
桂>哥>网>络www.guIgege.cn
本文来源于chatgptplus账号购买平台,转载请注明出处:https://chatgpt.guigege.cn/jiaocheng/37472.html 咨询请加VX:muhuanidc