在此前的一些相关报道中(报道1、报道2),36氪通过部分内容初步探讨了在供给侧严重不足的心理健康行业,人工智能存在的潜在机会及挑战。
近年来,人工智能因为算法不可解释性、鲁棒性及安全性等问题,以及弱AI时代人工智能性能低下、过于依赖数据驱动等问题,引起了大众对人工智能的怀疑。
人工智能自诞生之日起便背负伦理枷锁,如今AI想切入心理健康赛道,涉足人的精神和心智,则伦理要求与风险更高。除此之外,人工智能解决方案在组织方式及交付体验上,与人工服务存在根本性的差异。伦理风险与体验差异,都使得我们需要进一步探讨,AI解决方案与人工服务、甚至AI与人类之间应该是什么关系?
同时,AI心理的解决方案难度也很高,需要AI+心理健康跨领域团队对心理健康业务场景形成极深的洞察,对场景与不同流派的疗法做数字化解构,重新设计数据标签体系,形成算法逻辑、知识图谱、策略,花费高企的数据成本训练模型……当中存在很多需要突破的难点及局限。在36氪过往报道中,也曾有读者针对心理AI的性能水平,留下怀疑的评论。
谨慎与怀疑,乐观与勇气,它们都是我们在危险、可能性、价值与真知中穿梭前行的航帆。技术怀疑者与技术乐观者都同等重要。
国内人工智能-自然语言处理领域专家、清华大学计算机科学与技术系副教授黄民烈,于2021年创办了人工智能心理健康企业「聆心智能」,聆心智能也是目前该赛道NLP( )基因领先的创业团队之一。
聆心智能自主研发精神心理领域的数字疗法与AI情绪对话机器人,并通过心理咨询服务线上平台聆心悠然、AI数字疗法App聆忧与AI情绪对话机器人,服务不同需求层次的用户。
作为国内自然语言处理领域的前沿学者、AI心理健康的前沿实践者,黄民烈教授带领聆心智能创始团队接受了36氪的采访,分享了他们对于自然语言处理以及AI心理健康的认知与经验。36氪借他们视角,试图为自己、也为感兴趣的读者提供一份探求答案的素材。
(以下采访内容经摘录简化、编辑与脱密)
01 AI+心理健康的定位
36氪:怎么理解AI+数字疗法在精神心理健康行业里面的定位?
黄民烈团队:这个行业很大,用户需求也分成不同层次。对于轻度的、亚健康的人群,AI方案主要做情绪陪伴和支持。对于轻中度健康状态的人群,通过数字疗法+AI进行干预。重症人群必须接受问诊治疗,AI切入的角度可能是个性化、精准化诊疗,同时帮助患者在院外去进行康复干预等等。不同层次AI扮演角色会不一样。
目前来看行业还是在百家争鸣的状态,没有一个玩家能够整合整个产业链。大家都是基于自己的禀赋、发挥自己的强项,不同业态进行互补。
36氪:怎么理解自然语言处理和数字疗法在解决方案里面的功能?
黄民烈团队:自然语言处理在整个方案的不同节点都起到关键作用。比如,我们通过自然语言对话系统,对用户不同层级的需求予以满足,包括但不限于情绪、陪伴、给予建议等等。在辅助诊疗方面,我们通过自然语言处理相关技术,将用户的输入信息处理为符合精神心理诊断体系的计算机符号表达,并且将该表达与医学专业诊断之间的关联和映射为理解用户输入提供底层架构上的支持。
最后,在数字疗法-数字药的开发方面,自然语言处理一方面作为理解用户需求的最基本工具,结合与其需求相契合的循证算法模型,为用户提供医学上最有用的数字疗法解决方案;另一方面,我们的自然语言处理技术本身在生成模型上就带有了情感支持的能力,因此本身也会作为数字疗法的一个组成部分,这也是市场上所独有的技术。
无论是自然语言处理也好,还是其他的技术、算法相关其实都是作为研发人员去考虑的,那么我们最后形成的解决方案才是用户或者来访者能够感知到的,那么治疗效果的准确性、专业性和效率我们是一定要优先保障的。数字疗法对于我们来说就是产品中核心的一环,通过他来反推算法的要求,反推不同其他衍生的功能与设计。
02 关于数字疗法
36氪:聆心智能整体治疗的作业过程大致是如何的?
黄民烈团队:首先,从筛查和评估开始入手。然后,是干预康复,也就是提供所谓的数字药,包括但不限于CBT、DBT等等所有已被印证可以治愈情绪障碍的循证疗法。最后是康复期及稳定期过程中,对用户状态的长期跟随健康管理。
我们的干预方案也会受到用户自身状态变化而动态调整。我们的算法模型会更多去感知用户本身的认知通路,比如每个人的说话方式能反映出他背后的思维方式和逻辑链路。用户认知一旦被算法很好地捕捉到后,我们就能够更好地根据用户自身的特点为用户提供治疗,能够更好地提高用户的依从性和治疗的有效性。当然我们也还在临床实验阶段,还在不停地迭代和完善。
我们以认知、情绪和行为三个维度去构建了整个疗法模型,所以疗法包括了CBT、DBT、IPT、正念等多种疗法。虽然CBT目前科研中的有效证据较多,但这是因为CBT更容易被量化、更容易发成型的论文,所以有效性证据更多,还是因为它真的是最有效的?这是仍待经过更多验证的。此外,从临床的角度来看,我们一直认为本土化的CBT研究没有发展得很好。所以,我们更多还是会结合临床经验,看什么样的框架能够对问题做有效拆解,并最终决定采用认知、情绪和行为三个维度,将逻辑做融合,再用AI去实现。
36氪:能否向我们具体举例介绍一下,AI是如何围绕这认知、情绪和行为三个维度去开展回复策略的?
黄民烈团队:比如一个情绪低落的用户使用聆心智能的聊天机器人。首先,机器人去探索用户的问题类型和关键事件。然后用户可能说,我心情不好是因为我跟女朋友分手了。这时机器人会可能会进行相对应的策略,例如共情,也就是情感映射,说,嗯分手通常是一件难过的事情。然后,机器人会进一步探索说,那你现在有什么想说或者想做的吗?
我们借鉴心理咨询理论,把这个交互过程分成探索、安抚、提供建议三个阶段。在每一个阶段,我们都设计了丰富的策略,包括提问、自我暴露、情感映射、提供信息、确认、奇迹问题等等。比如自我暴露策略,是机器人回复用户说,我也曾经有过类似的痛苦经历,然后希望能跟用户能够产生更多情感连接。这些策略都是有心理学理论支撑的。
在心理咨询的过程中,人和机器有一个比较大的区别,就是人能产生非常强烈的共情。人类共情之后,再与来访者探讨问题。虽然机器也能共情,但其浓烈程度肯定没有人那么丰富。
那我们怎么办?我们现在采用的方法,就是在与用户对话过程中,更多去调动用户自身的思考能力——也就是他的认知,并通过一些技术性和策略性的方式,回避机器人不太容易理解的、多样掺杂在一起的复杂情绪。
比如,我跟机器人说我工作好累。如果是一个人回复我,他可能会告诉我,累的时候他自己会做什么?于是,我们在编写算法过程中,会给机器人赋予一个稳定人设,针对不同情景,这个机器人的人设会有自己的反应。拥有人设的机器人会告诉我,它累的时候会做什么,它觉得这个事情为什么起效——这个就是机器人在使用自我暴露策略。
其次,机器人听到用户说很累时,可能会问用户感觉压力大的时候,用户自己通常会做什么,用户自己觉得这个事情有效吗?如果这个事情暂时没有效果,用户要不要试一下其他办法?然后机器人就会引入一些干预和练习。我们通过这些策略安抚用户情绪,同时让用户自主思考什么事情对自己最有效果。
36氪:整个数字疗法的设计开发过程中,主要难点是什么?
黄民烈团队:最难的地方,在于把咨询师的认知和语言,“翻译”成AI逻辑。打个比方,CBT疗法咨询师在评估一位患者是否达到预期治疗效果时,其标准通常是患者的社会功能是否已恢复至正常水平。那对AI来说,什么叫做个体层面的正常?在AI算法开发过程中,我们就需要将这个目标量化。
这跟我们平时做心理咨询会有所不同,原因在于,我们人工咨询会有一个动态评估的过程。我们目前根据数据和案例,持续不断调整评估的量化指标权重以期待达到最精准的动态评估。
类似这种“翻译”,听起来不难,其实在实践中很不容易,需要AI人才和心理咨询人才之间非常多的碰撞,才能重新设计出来。
36氪:聆心智能的循证医疗临床实验和真实世界研究是如何组织的?基于隐私及伦理方面等问题,您觉得数据方面的局限和困难有哪些?样本偏差是如何的,如何控制和平滑样本偏差带来的影响?
黄民烈团队:我们训练模型的数据都是真实世界数据,隐私和伦理是我们会首要考虑的。我们的真实世界数据在收集过程中,机构和咨询师会取得来访者的许可。取得数据时,我们的数据已经被脱敏过,所以在这个层面上很大程度能避免隐私泄露。
我们现在的数据来源不光是心理咨询,还有很多其他非心理咨询的数据来源。我们尽可能地确保我们的数据能够覆盖所有人群样本和大部分人们可能遇到的议题。
因此,我们在做数据标注时,会对所有可能的维度进行一个更精细的标注,然后,在使用样本数据时,尽可能地去避免样本偏差。但是必须承认是不可能完全避免偏差,需要注明的一点是,用于临床的机器人是有适应症或人群限定的,我们不期待用一个数据源去面对所有年龄段的所有来访者的种类。
36氪:请您介绍聆心智能目前取得NMPA批准情况。您是如何展望数字疗法后续的监管发展及政策变化?
黄民烈团队:我们目前已经开始在做临床实验,后续去取得医疗器械认证。
我们对政策很乐观,认为趋势和节奏会越来越快。美国心理健康机器人已取得FDA认证,海外的趋势肯定也会促进国内的监管政策发展。同时,国家正在大力推行社会心理服务体系,比如我国北京、海南都已设立数字疗法认证中心,而我们的方向是这个大体系下非常重要的环节,能够普惠大众。
当然,我们可能需要一点时间,让监管完成对各方面风险评估,但因为数字疗法的副作用当前来看会非常小,甚至可以认为几乎没有,所以数字疗法跟其他治疗比如传统药物相比,获得监管认可的速度会更快。
也正是政策的利好与支持,也希望行业内的同仁们,真正从实践中发现临床价值,而不是纯粹为了逐利,每一件事都做深做扎实做到真正询证有效,但凡是真正惠及于民的有用有效的产品,才能促进行业标准、规范、监管体系的形成,真正促进一个行业的大发展。
03关于自然语言处理
36氪:您如何理解自然语言领域里面,关于可信AI最常提到的,算法可解释性、算法鲁棒性等方面的局限?
黄民烈团队:关于可信人工智能,学术界一直在做相关的研究,也取得了一些可喜的进展。
比如在安全方面,我们最近就在做关于对话系统安全性的研究,让对话AI拥有价值观和更多伦理知识,让人工智能知道什么是对的、什么是错的。比如说,让AI知道不要冒犯用户、知道自杀是不好的、知道什么是真善美等等。
让人能安全信任,也包括算法的可解释性。因为现在AI算法绝大多数是个黑箱,使得我们对于算法到底是如何做出决策,缺乏足够了解。这很大程度限制了我们的算法和模型应用场景,尤其是在医疗领域。在聆心智能的研究里边,不论是情绪情感支持机器人,还是筛查/辅助诊疗算法等方面,都将算法的可解释性考虑在内。我们的可解释性主要体现在,AI的决策始终与其所担任的角色行为逻辑保持一致。我们通过知识图谱将心理医生专业知识中的关键概念对齐起来,从而知道人工智能算法的决策是如何生成的。在这方面,我们还在持续探索、还要持续进步。
在语言理解方面,多一个词、少一个词,可能识别出来的类别就会有很大的区别,这就是所谓的鲁棒性问题。我们也有相应的算法研究和技术解决方案。在语言生成方面,可能用户输入稍微有点变化,但生成的结果就变得千差万别,这也是AI模型的鲁棒性问题。
36氪:您是如何理解人类及人工智能的关系——如何理解独立AI以及辅助性AI?独立AI和辅助性AI只是技术上的成熟度差异所带来的阶段性差异,还是基于什么根本性变量产生区别?
黄民烈团队:我个人认为是独立AI和辅助AI是基于应用场景风险特征来划分的。有一些应用存在很高的风险,一旦犯错代价会非常大;另外一些场景应用的风险容忍度会更大。比如在医疗诊断领域,我们能做的都是辅助性AI,因为一旦诊断错误,伦理风险及代价会非常高——即便是模型准确率达到百分之九十五以上,就能做独立诊断吗?这个首先在监管上就过不去了。再比如说,现在刷脸的独立AI准确率已经达到99%以上,我们可能也未必敢直接用刷脸支付,可能还需要辅助认证手段,比如做一些动作,如眨眨眼、摇摇头之类的。
因此,这首先跟应用的安全性密切相关。比如做手语AI,错一点儿没太大关系;又比如智能客服推销产品,推销一个保险产品和银行理财产品,AI打个电话、通过固定话术和策略推销、然后结束。这些情景做独立AI没有问题。
另外,还有一些因为技术限制暂时无法做到独立AI的情形,比方说我们曾经做过银行催贷业务,因为它非常复杂,在目前的技术水平下,还是需要AI结合人一起工作。
36氪:您能否向我们概况性地介绍一下,截至目前为止自然语言处理在多轮对话中的语义理解及语言生成方面,已克服了过往什么样的技术困难,已达到什么水平?仍然待攻克的瓶颈大概有哪些?
黄民烈团队:我简单谈谈自己的体会。自然语言处理经过了几十年的发展,终于在最近几年取得了非常大的突破,无论是语言理解还是语言生成方面,性能都有非常显著的提升。
我们就拿对话系统为例。从1966年开始到2010年左右,人工智能对话系统主要还是基于规则。但是从2020年开始,出现了基于神经网络与大数据的大模型对话系统,这种对话系统的开放对话能力上,跟过往完全不是一个水平——包括我们自己最近做的对话机器人,其对话能力是我们3年前根本不敢想象的。在这个技术发展过程中我的感觉是,技术发展忽然就跳到了另外一个显著更高的平台上。除了对话,我们已经看见了各种技术突破:阅读理解、图像分类、作诗等方面开始出现了超越人类性能的情况,AI甚至可以写文章、经过简单修改、然后发表在了《英国卫报》上。
但是即使这样我们仍然面临很多问题,AI跟人的水平还有很大的距离。这是因为人有大量的知识、有大量的推理,凡是涉及到知识、推理的时候,数据驱动的算法就做得不太好。我们过于依赖数据驱动,还不能做语言理解上的泛化、不能去做推理,模型见过的东西能做到很好、没有见过的东西可能就做的不好。这让我们在对话过程中遇到前后矛盾、答非所问的情况。同时,也依然面临可解释性、鲁棒性等问题。
36氪:在自然语言处理技术发展仍然有限的情况下,您觉得一个良好的心理健康解决方案,NLP需要到什么水平?过于依赖数据驱动的问题,大概有什么解决的方向呢?
黄民烈团队:基于规则的AI系统对于数据的依赖就小很多,但今天的深度学习模型却极度依赖数据。在深度学习模型中,我们也可以将专家知识通过规则、通过符号的方式,跟数据驱动结合起来。这样对数据的依赖会大大减少。因为有专家的知识和规则,AI也能处理它没有见过的东西、处理未知,推广性能更好。
所以心理健康的AI方案,最重要的还是将算法与该领域专业知识结合。我们将心理健康的专业知识迁移到AI模型上,比如我们机器人能够掌握自我暴露、倾听、提问、情感映射等心理咨询领域发展了上百年的技术。同时,我们也要很清楚AI模型哪些方面有短板,要知道怎么样用心理健康专业知识去补AI能力当前的短板,做技术性规避。
04 关于模型与数据
36氪:在提炼、解构和设计出合适的数据标签方面存在哪些困难?在情绪识别这种连正常自然人都很难做好的环节,人工标注过程中,是否存在什么困难及局限?
黄民烈团队:心理咨询理论已经发展了100多年,形成了相对成熟而完整的理论。比如,对于某类来访者,咨询师应该采用什么技术去更好地提供服务,其实已经自发生长出一套标签体系。但是,把这些类别和标签全封不动地搬到AI模型内会面临困难:首先,这个数据标注不是一般人能标注的,需要专业资源来标注,从而导致标注成本很昂贵。其次,类别体系越细致和越复杂,AI模型可能学不会,比如可能受到数据标注一致性的影响。
以情绪类别为例,我们原来在学术界做细粒度情感分析,在主流研究中采用六个情绪类别,喜、怒、哀、乐、悲、与其他。但是在心理咨询中情绪可以细分为32个类别,哪怕是聘请心理专业人士去标注,标签太细也很难区分,不同人有不同的理解,这会让数据标注存在一致性问题。所以聆心智能目前设计出一个10类情绪的标签体系。
除了情绪类别,比如在咨询师技术体系上,对于来访者意图识别等方面,我们也按照类似的方法重构了一套标注体系。通过这种方式既平衡了资源、成本,也保证了专业性和有效性。这是以我们团队深入的心理健康专业理解为基础的。
在人工标注的一致性方面,培训、质量控制和标注者的专业背景都很重要。我们很多的标注工作都是心理专业的学生、实习心理咨询师、执业心理咨询师,我们和专业的心理咨询机构合作。因此,数据标注成本非常贵,时间成本也很高。
36氪:评价成本是不是也很高?
黄民烈团队:我们分为算法自动评价和人工评价。算法自动评价,通过让AI做一些测试题并评分,成本就很低。但是人工评价就比较贵,比如我们评价我们机器人,会找很多用户跟它聊天,然后根据交互情况,对结果进行打分。
36氪:我们目前预训练模型的参数规模大致到了什么级别?数据源大概有哪些?除了贵,一个高性能的预训练模型通常还有什么壁垒?
黄民烈团队:我们的预训练模型参数在100亿规模左右,在整个业界即使不是最大,也是非常靠头部的前几名。在数据源方面,主要包括公开社交媒体、合作授权的专业心理健康数据以及我们实验室在过去6-7年自主积累的数据。数据量在几十亿到几百亿单词量之间。
一个参数巨大的预训练模型不是一般机构能搞得出来的,第一是算力很贵,第二是数据比算力更贵、更难获取,这当中还存在大量的dirty work,需要长年的积累。
而且,单纯创建出一个模型,距离产品应用还很远。如果只是做研究,那随便怎么样都能弄出一个模型来玩。但是,要做产品,就会涉及非常多的功能优化,会发现模型有很多case处理不了、或者处理不好,需要工程力量去优化、改进和规避。目前我们的工程能力在业界是非常拔尖的水平。
36氪:迁移方面是怎么做的呢?
黄民烈团队:一方面主要是通过跟特定人群相关的数据对模型进行微调,另一方面根据特定场景去构造知识图谱。基本能够比较快地调整完毕并投入使用。
05 角色转变
36氪:从科学家身份,转型为科学家+企业家双重身份,有什么个人感受,有什么挑战困难?
黄民烈:两个身份的相通之处都是带团队、找资源——当科学家培养学生、找项目经费;当企业家是带领各种更复杂的社会人,创造营收和找融资。同时,两种身份都是解决问题、规划方向。
科学家所面临的问题更加简单和纯粹一些,探索一些科学问题和先进技术,相对而言,确定性在可控范围内。但商业更复杂、不确定性更大、要考虑的变量更多,决策起来也会更难一点,我觉得这是最大的不同。
面临的最大挑战是如何走通 “技术—产品—商品”的通路,因为每个阶段的思维是不同的。技术,是科学家研究出来的算法、模型、原型系统。产品,是工程化后的、折中了用户可使用的服务或者实物。商品,是可以重复售卖,能换来现金的产品。
希望未来的投资人能有社会情怀和前瞻性,认可AI+心理健康这个赛道,在医疗、心理、AI方向有一些资源,愿意和公司一起耕耘,不急于短期变现。