【资料图】
语音数据的美妙之处在于,它可能是你能从人们身上收集到的最便宜的数据类型之一。这是一种非常容易获得的信息,你可以从任何病人那里获得。过去几年的研究已经探索了语音帮助诊断疾病的潜力,但大多数都是小规模和孤立的,也没有任何大型的语音数据数据库,而且这是一个新的研究领域,研究人员还没有找出围绕如何收集语音信息进行研究的最佳做法,现在这个项目将建立如何收集数据的标准。
该项目是通过美国国立卫生研究院的Bridge2AI项目资助的,该项目支持建立道德的、严格的和可访问的数据集,可用于开发AI工具。该项目将持续四年,在此期间可获得高达1400万美元的资金。该研究团队将首先建立一个应用程序,从患有声带麻痹、阿尔茨海默病、帕金森病、抑郁症、肺炎和自闭症等疾病的参与者那里收集语音数据。所有的语音收集将由临床医生监督。例如,患有帕金森病的人--他们的声音可能更低,他们说话的方式也更慢,他们将被要求说出声音,阅读句子,并通过该应用程序阅读全文。
然后,他们将使用这些数据集来建立可以检测各种情况的人工智能模型。研究团队正在与医疗人工智能公司Owkin合作,在该项目中建立和训练人工智能模型。Owkin的框架让病人数据留在收集数据的医疗中心,该模型在每个数据集上单独学习,然后将这些训练的结果返回到一个中心位置,在那里将它们合并起来。然后,更新的综合模型被送回每个地方,这个过程再次开始。
这为语音数据提供了额外的隐私保护,它的独特之处在于它可以很容易地与它的来源者联系起来。人们的声音很容易被识别,即使他们的名字被删除。一个生物伦理学家团队正在为该项目工作,研究语音数据库和基于语音的诊断的伦理和法律影响。Bensoussan说,他们将思考,例如,声音是否受到《健康保险可携性和责任法案》(或HIPAA)的保护,以及病人是否拥有自己的声音数据。
医学研究人员并不是唯一对使用语音诊断疾病感兴趣的群体,制造语音助手的大型科技公司也是如此。亚马逊拥有专利,可以利用Alexa来找出人们是否有情绪问题,如抑郁症,或身体问题,如喉咙痛。理论上,如果某人的声音显示出阿尔茨海默氏症等疾病的迹象,被动的家庭语音助手可以标记出这种情况。这将引起另一层伦理和法律问题,专家们已经开始思考这个问题。