更新时间:2021-10-12 19:24:27
大家好,我是本专栏的编辑郝帅,现在我来解释一下上面的问题。大数据的增长速度比目前的计算机程序能跟上的速度还要快。GET SMART计算机科学家Anshumali Shrivastava正在设计巧妙的方法,帮助计算机程序更智能地工作,而不是更努力。这个世界充满了数据,安舒玛利施赖瓦斯塔瓦可能会拯救我们免于溺水。
每天在线发布超过10亿张照片。一秒钟内,大型强子对撞机可以产生100万千兆字节的观测数据。大数据的扩展速度比目前计算机程序所能分析的速度要快。
休斯顿莱斯大学的电气和计算机工程师理查德巴拉尼克说:“我们有一个巨大的数据海洋,我们必须通过花园管道把它吸走。”
因此,33岁的计算机科学家Anshumali Shrivastava正在设计新一代人工智能程序,以有效处理洪水信息。
麻省理工学院的电气工程师和计算机科学家Piotr Indyk说,他的“非常有创意”的策略可以解决庞大数据集的问题。“我说了一些这样的话,‘我希望我能想到它们。’它们清晰、美观、有效。"
他说,Shrivastava进入了人工智能,因为解决现实世界问题的数值算法是“你看到数学在起作用的地方”。但是康奈尔大学计算机科学专业的博士生施赖瓦斯塔瓦意识到人工神经网络的效率非常低。
神经网络由称为人工神经元的代码片段组成。为了学习图像识别等任务,AI网络可以研究标记图像,网络中的每个人工神经元都可以获得识别某种模式的专业知识。
但即使它们集中注意力,典型网络中的所有神经元也会继续研究所有传入的信息。例如,当网络看到一张猫的照片时,即使是负责关注卡车的神经元也会引起注意。Shrivastava说,这不必要花费时间和精力。
在研究生院,Shrivastava找到了一种识别和激活与每个输入最相关的神经元的方法。他用哈希函数来组织数据库中的记录,就像杜威十进制系统组织图书馆的书籍一样。
有序存储
计算机可以通过将每个文档提供给哈希函数来组织数据库中的记录,哈希函数为记录分配哈希代码。相似的文档被分配相似的哈希码,并存储在哈希表中的同一个“桶”中——类似于相同主题的书籍在图书馆中被放在一起的方式。
T.TIBBITTS
Shrivastava设计了一组哈希函数,根据虚拟神经元与给定输入的相关性来组织和快速定位网络中的虚拟神经元——这样就可以找到所有的猫神经元,而忽略卡车神经元。
“两年多来,我一直在思考这个问题,”他说。“你把所有的问题都抛在脑后了。”当他有时间,通常无处可去时,他会回到这个问题上。但他回来的那天,几个小时就解决了问题。他回忆说,自己坐在卧室里,一遍又一遍地阅读他的解决方案,让自己相信它确实有效。
莱斯大学的计算机科学家摩西瓦尔迪说,他提出的系统可能被认为是“那一年机器学习中最好的研究工作”。在2014年神经信息处理系统大会上获得优秀论文奖。
此后,Shrivastava建立了图像分类神经网络,其工作方式与标准网络相同,但计算量减少了95%。这种效率可以释放人工智能程序处理其他信息的时间和精力,比如用于语音识别的音频,为更加多样化的人工智能铺平道路。
自2015年加入莱斯大学以来,他还开发了其他简化计算方法。瓦尔迪说,他“非常聪明,速度极快”。“我们有时不得不跟随他,因为他的思想在前进。”
杜克大学的赖斯、施赖瓦斯塔瓦和他们的同事最近对叙利亚内战受害者的数据库进行了哈希运算。事实证明,很难获得叙利亚冲突中死亡罪行的确切数字,以帮助起诉危害人类罪的实施者。家庭成员、媒体和其他来源报告的受害者数据库包含重复记录;计算机需要一周多的时间来比较所有354,000条记录,以找到重复的记录。
一旦Shrivastava的计算机程序为四个受害者数据库中的每条记录分配了哈希代码,它将在几分钟内使用这些代码来识别可能的重复记录。该计划在6月份的《应用统计年鉴》中进行了报道,然后只检查了这些记录的匹配情况。
在离家更近的地方,Shrivastava和她的同事创建了一个智能手机应用程序,用于根据人们周围的照片导航购物中心或其他大型建筑。该应用程序将用户拍摄的照片反映为哈希码,可以与参考照片码进行比较,并在两秒钟内准确定位位置。
随着大数据的激增,Shrivastava很容易不堪重负,情绪低落。巴拉尼克说,幸运的是,“他身上没有不开心的骨头”。
Shrivastava可能会在特定的问题上停顿几个月或几年,然后才会得到导致他基于哈希的尤里卡时刻的大脑爆炸。但他说,当他能够将运行缓慢的计算机系统推向高速时,“这是值得的。”