速讯：ResponsibleTA 提升 LLM 可靠性，任务完成更安全、更高效

2023-06-22 14:19:34 来源：ZAKER科技

机器之心专栏

机器之心编辑部

(资料图片)

AI 智能助手照进现实。

近几个月，ChatGPT、GPT-4 等大语言模型（LLM）展现出突破性的理解、推理、生成、泛化和对齐能力，对各行各业的研究方式和生产效率均带来广泛而深远的变革及影响。此外，LLM 还展现出在真实世界的开放场景中解决复杂问题的能力，使科幻电影中无所不能的 AI 智能助手照进了现实。

在实现自然场景中的任务自动化时，一个复杂的任务往往由多个子任务构成，这需要多个模型或 APIs 的协作。如何确保 LLM 和执行器之间高效、安全、稳定地协同工作，是构建 Responsible AI ，以及让 LLM 可靠地为人类提供服务的关键问题。

为了解决这个问题，来自微软亚洲研究院的研究团队提出 Responsible Task Automation ( ResponsibleTA ) 框架，提升 LLM 和执行器之间协同工作的安全性和有效性。

论文链接：https://arxiv.org/pdf/2306.01242.pdf

项目主页：https://task-automation-research.github.io/responsible_task_automation/

方法

本文通过提出一个新的任务自动化框架，通过可行性检测，完成度检验，用户隐私保护等三个模块，提高了大语言模型作为任务助手的可靠性，为未来的人机交互提供了一种可行的方式。

该系统框架包含基于 LLM 的中央处理单元、指令执行器、指令可行性预测器、指令完成度检验器和安全性保护器。

Responsible Task Automation ( ResponsibleTA ) 框架示意图

当 ResponsibleTA 接收到复杂任务对应的高层级指令时，安全性检测自动将包含用户隐私的命令实体替换成对应的占位符，然后将去隐私化的指令发送给部署在云端的 LLM，LLM 据此规划实现该负责任务目标的单步指令，然后发送给的部署在本地的执行器实际执行相关操作。从 Responsible AI 的角度出发，该框架赋予 LLM 三个新的能力：

1）可行性预测：ResponsibleTA 框架针对 LLM 和执行器的协同，开发设计了可行性预测模块。该模块用于对 LLM 的输出进行可行性判断，及时拦截不可行的执行指令，从而规避在执行这些指令的过程中产生的不可控风险。当 LLM 输出的指令判断为「不可行」时，可行性预测期会将其分析结果返回给 LLM，并要求其重新进行任务规划，力求将合理可行性的指令交付给执行器，提升任务自动化的成功率。

2）完成度检验：ResponsibleTA 框架设计了一个完成度检验器，用于在执行器每次执行结束后自动检查其执行结果是否符合预期。该模块根据执行器执行后的即时状态，判断 LLM 当前规划是否完成，并提供及时补救的可能。当执行状态判定为「未完成」时，完成度检验器会要求 LLM 启动 replanning，使其能够及时调整任务规划。

完成度检验器和上述可行性预测器，分别在 LLM 输出指令的执行前后，对指令的合理性和执行的完成性进行校验，为任务自动化的可靠性提供了双重保险。

3）用户隐私保护：ResponsibleTA 框架还设置了用户隐私保护机制，该机制通过一个本地记忆单元实现。当用户将高层级命令发送给部署在云端的大语言模型时，ResponsibleTA 中的隐私保护模块自动将命令中的隐私信息（如：用户名、密码、地址等）替换成对应的占位符，而当大语言模型将规划的低层级指令发送给部署在本地的执行器是，占位符会被自动替换成对应的真实信息。于此方式，用户的隐私信息仅在本地被存储和被使用，无需发送至云端，从而避免在传输和使用中的不可控风险。

针对 ResponsibleTA 中的可行性预测和完成度检查功能，其研究团队在 UI 任务自动化场景下提出并对比了两种不同的技术路线，并在实验部分详细分析了这两种技术路线的特点。以可行性预测为例，第一种技术方案通过 Prompting 的方式利用大语言模型内部知识进行判断。具体地，研究者训练了一个屏幕解析模型将 UI 页面解析成所含 UI 元素的语言描述，并将和指令一起输入给 GPT-4 模型，让 GPT-4 判断当前指令的可行性。具体方案如下图所示。

基于 prompt engineering 的（指令）可行性预测器实现方案

另一种技术方案在于训练一个专用的多模态模型，该模型接收 UI 页面的视觉信号和对应的语言指令为输入，输出该指令的可行性判定结果，具体结构如下图。

基于专用模型的（指令）可行性预测器实现方案

完成度检验器的实现方案于可行性预测器类似，在此不详细赘述。

实验

该工作的作者首先对 ResponsibleTA 中的关键模块进行定性实验，验证其有效性，并对比不同实现方式的特点。据下表所示实验结果，作者认为专用模型能够提供更优的实验结果但需要收集特定任务对应的数据和标注用于模型训练，而基于 LLM 的技术方案也能达到不错的效果，并在实际部署的成本和灵活性方面具有优势。

可行性预测器和完成度检验器的定性实验结果

作者还在真实世界的实际使用场景中进行 online testing, 并汇报了基线模型，具有可行性预测器的 ResponsibleTA 框架和完整版的 ResponsibleTA 框架在 12 个实际 UI 任务执行过程中的具体表现。作者观察到所提出的可行性预测器和完成度检验器能够避免执行不可理 / 不可行的指令，并能通过让 LLM 进行 replanning 的方式进行及时补救，从而提升任务自动化的成功率。

真实世界中实例研究定量结果。表格中的数字表示「有效执行步数 / 总共执行步数（人类专家执行步数）」。

此外，作者还通过具体的案例分析直观地展现了 ResponsibleTA 框架中的关键模型如何对一个失败案例进行补救，使其成为一个成功案例。

案例分析：进入亚马逊网站并将最便宜的充电器添加至购物车。

THE END

投稿或寻求报道：content@jiqizhixin.com

x 广告

速讯：ResponsibleTA 提升 LLM 可靠性，任务完成更安全、更高效

速讯：ResponsibleTA 提升 LLM 可靠性，任务完成更安全、更高效

【环球新视野】2023年蓉城巾帼创意集市鸣锣开市

3市州迎来强降雨 四川紧急避险转移群众

山西平陆：两男子被困黄河河道 船员强渡激流救人

海报时评丨端午节的仪式感，让传统文化更鲜活

废旧电缆_关于废旧电缆的介绍-环球热文

全球速讯：古董下山缘何故下载（古董下山缘何故）

聚焦：小牦牛清债网怎么样（小牦牛清债网）

win8.1专业版怎么调节屏幕亮度_win8.1专业版怎么激活 环球快消息

衰衰“棉花筋斗云”超速了？不仅撞惨机器猫，甚至引爆超人大战！ 天天快播报

国产显卡助力AI领域 拟募集42亿加速研发

环球短讯！时隔近一年：老牌解压缩软件7-Zip更新23.01正式版，仅有1.5M大小

当前快报:水果茶能隔夜喝吗 过夜的果茶第二天还能喝吗有毒吗_水果茶能隔夜喝吗 过夜的果茶第二天还能喝吗

诚邀世界级选手共建农业科创硅谷，2023上海崇明农业高质量发展招商大会举行

环球热讯:广州企业注册查询 广州市企业工商注册

三亚：180余人小康广场旁夜话乡村振兴 同心谋发展

热点评！小麻袋借贷贷款逾期19天多久上征信系统

杀戮开关下载_杀戮开关

活动进行到一半，1600多斤土猪肉就快卖空了

ST中珠（600568）周评：本周跌3.78%，主力资金合计净流出755.80万元

科技部部长王志刚会见新加坡淡马锡公司董事长林文兴

民生银行重庆分行被罚没5967.8万元|世界最新

山东花境设计与环境保护

全球速看：暑期游“热”起来，湖北跨省游亲子订单同比涨超7倍

股市退市如火如荼，“劣质”基金也须加速出清 热门看点

总投资590亿元！乌审旗内蒙古卓正煤化工甲醇醋酸项目复工

长痘痘用什么药膏好？揭晓祛痘印排行榜TOP3超值！

台式电脑组装清单（台式电脑组装）-微头条

a4纸有多大_a4纸像素 每日热门

《发条革命》和《生化奇兵：无限》视频对比 世界速递

iPhone 14 Pro设置返回键教程介绍 世界观焦点

天天动态:百万考生或将放弃高考录取？

动态焦点:医生建议多吃4物保骨

世界新资讯：台湾5月外销订单年减17.6% 连9黑

至死不渝皮肤剑圣_至死不渝皮肤

九鼎分别叫什么名（九鼎分别叫什么）-天天播报

专家科普猴痘病毒防治知识 大家关心的问题都在这里

仪式感拉满！陕西四所高校点亮西安城市地标

天天报道:物产中大（600704）：6月21日技术指标出现观望信号-“黑三兵”

天天快资讯：文库下载器by小叶怎么使用 文库下载器app

依顿电子：6月20日融资买入1296.68万元，融资融券余额1.79亿元 天天快消息

柔远路军民总管府_关于柔远路军民总管府概略

环球今热点：经济日报金观平：发挥优势构建现代化产业体系

全球热点！excel数字旋转90度（excel表格旋转90度）

世界短讯！金昌市着力推动城乡融合发展

2021

海侵体系域

环球新消息丨打好政务服务组合拳 中山火炬开发区营商环境再优化

男女互换身体电影解说_男女互换身体电影

秦雍城发现时代最早秦国大型建筑遗址 为春秋时期建筑遗址-环球报资讯

meego系统还能用微信吗_meego系统手机

鹤壁市与信阳市两地同步发放农村土地承包经营权证书和不动产权证书

情人节礼物送n95,昨天相亲了，今天是情人节，我该发多少红包给她？-每日热讯

每日短讯：6月26日~28日中招开考 郑州市区考场安排来啦！

益客食品：6月19日融资净买入527.26万元，连续3日累计净买入1130.76万元

环球快报:河南众设置业3.86亿元竞得郑州经开区1宗超32亩宅地

2023河北高考本科分数线公布 本科分数线是多少

全球聚焦：港股开盘：恒生指数跌0.25％恒生科技指数跌0.23％，科技股多数低开

天齐锂业中期锂盐产能将超过14万吨/年

全球微头条丨leave真“查无此人”，EDG续约3年的品牌将其忽略，选手改id表态

秦皇岛市预计本周仍将出现臭氧污染过程 每日热点

胜利工程土库曼斯坦NGad-103D井顺利开钻 新要闻

全球速讯：草在结它的种子风在摇它的叶子婚礼开场白（草在结它的种子风在摇它的叶子）

车主自己训练常用路线 五菱『记忆行车』解析-新资讯

锦州强化监检联动守护节令食品安全

刺激，梅西缺席，帕雷德斯穿云箭，2-0阿根廷赢麻了，豪取10连胜

一年级语文试卷上册第二单元_一年级语文试卷上册

当前热议!佳明集团控股(01271)建议采纳新购股权计划及新股份奖励计划

安徽的白酒有哪些品牌-天天百事通

你吃过最早的方便面是什么牌子的?

今日最新！杨幂的身材有多好？看到她的旗袍照后，女生都无法移开眼睛

世界热点！洛天二萌娘百科 洛天二

牛哞哞什么意思（牛牪犇犇是什么意思简介介绍） 世界速讯

肝脏多发囊肿或海绵状血管瘤_肝脏多发囊肿怎么办

天宜上佳：上半年净利同比预增73%到94%_全球热消息

《塞尔达传说王国之泪》塞尔达所爱的金色的马任务攻略 塞尔达所爱的金色的马怎么做？ 环球即时看

60秒看大江澎湃｜“中原突围出发地”宣化店的乡村振兴突围

正裕工业(603089.SH)：目前主营汽车关键零部件的研发、生产和销售

19日中午，湖北再次发布地质灾害风险预警

3市州迎来强降雨四川紧急避险转移群众

山西平陆：两男子被困黄河河道船员强渡激流救人

win8.1专业版怎么调节屏幕亮度_win8.1专业版怎么激活环球快消息

衰衰“棉花筋斗云”超速了？不仅撞惨机器猫，甚至引爆超人大战！天天快播报

国产显卡助力AI领域拟募集42亿加速研发

当前快报:水果茶能隔夜喝吗过夜的果茶第二天还能喝吗有毒吗_水果茶能隔夜喝吗过夜的果茶第二天还能喝吗

环球热讯:广州企业注册查询广州市企业工商注册

三亚：180余人小康广场旁夜话乡村振兴同心谋发展

股市退市如火如荼，“劣质”基金也须加速出清热门看点

a4纸有多大_a4纸像素每日热门

《发条革命》和《生化奇兵：无限》视频对比世界速递

iPhone 14 Pro设置返回键教程介绍世界观焦点

世界新资讯：台湾5月外销订单年减17.6%　连9黑

专家科普猴痘病毒防治知识大家关心的问题都在这里

天天快资讯：文库下载器by小叶怎么使用文库下载器app

依顿电子：6月20日融资买入1296.68万元，融资融券余额1.79亿元天天快消息

环球新消息丨打好政务服务组合拳中山火炬开发区营商环境再优化

秦雍城发现时代最早秦国大型建筑遗址为春秋时期建筑遗址-环球报资讯

每日短讯：6月26日~28日中招开考郑州市区考场安排来啦！

2023河北高考本科分数线公布本科分数线是多少

秦皇岛市预计本周仍将出现臭氧污染过程每日热点

胜利工程土库曼斯坦NGad-103D井顺利开钻新要闻

车主自己训练常用路线五菱『记忆行车』解析-新资讯

世界热点！洛天二萌娘百科洛天二

牛哞哞什么意思（牛牪犇犇是什么意思简介介绍）世界速讯

《塞尔达传说王国之泪》塞尔达所爱的金色的马任务攻略塞尔达所爱的金色的马怎么做？环球即时看

身体哪些信号可以提醒患上了乳腺癌？天天信息

名医大家齐聚蓉城共话中医药防治心血管疾病

真人版《海贼王》预告片亮相演员阵容强大天天要闻

长沙韶光社区：开展“人人讲安全个个会应急”安全生产月主题宣传活动

这个坎真过不去！真人版「海贼王」预告证实粉丝的忧虑每日快报

环球热议:（长江云）咸安：采摘正当时瓜果飘香助振兴

如何驷马捆绑自己驷马捆绑自己

余杭今日入梅！防汛工作严阵以待！世界最资讯