当前位置:伍佰目录 » 站长资讯 » 免费资源 » 技术文章 » 文章详细

MIT发布首个贝叶斯「数据清洗」机器人!8小时洗200万条数据

来源:本站原创 浏览:230次 时间:2021-05-17

新水浒传宋江老婆,中军舰将停金兰湾,北京酒店预定

  

  新智元报道

  来源:GitHub

  编辑:LRS

  【新智元导读】吴恩达说AI模型里百分之八十的工作要放在数据上,而数据清洗又是保证模型质量的关键步骤,它涉及到领域知识等等,往往很难自动化,MIT最近发布了一个自动数据清洗机器人,有望摆脱手工清洗数据!

  脏数据可以说是所有AI从业者、数据分析师、数据科学家的噩梦。

  

  好消息来了!

  麻省理工学院的研究人员最近带来了一种全新的系统PClean,能够自动地清洗脏数据,如错误、值缺失、拼写错误和值不一致。

  

  并且还能够根据概率统计出常识知识来推断信息。

  这个名为 PClean 的系统是概率计算项目(Probabilistic Computing Project)研究人员编写的针对特定领域的概率编程语言,旨在简化人工智能应用程序的开发并实现自动化,例如时间序列和数据库进行建模)。

  根据Anaconda和Figure Eight所做的调查,清洗数据可能会占用数据科学家四分之一的时间。如何将这个任务自动化,一直以来都是一个具有挑战性的任务。因为不同的数据集需要不同类型、不同层次的清理,而且清晰过程经常需要依赖常识来对世界上的物体进行判断,例如一个城市表中,需要判断哪些值不属于这列。

  PClean 为这类判断提供了一个通用的常识模型,可以根据特定的数据库和错误类型进行定制化操作。

  PClean 使用基于知识的方法来自动化数据清洗的过程: 即用户在定义数据的时候,已经隐含包括了数据库的背景知识以及可能出现的各种问题。

  例如,有一个场景,当清理公寓列表数据库中的国家名称的时候,如果有人说他们住在比佛利山庄,但是没有留下任何其他信息怎么办?虽然在加州有著名的比弗利山庄,但在佛罗里达州、密苏里州和德克萨斯州也有一个,而且在巴尔的摩有一个被称为比弗利山庄的社区。你怎么知道这个人住在哪里?这就是 PClean 这门脚本语言创造的初衷。

  

  用户可以向 PClean 提供有关域以及数据可能如何损坏的背景知识。PClean 通过常识性概率推理将这些知识结合起来得出答案。

  例如,如果对租金类的常识有更多的了解,PClean 就能推断正确的比弗利山是在加利福尼亚,因为被调查者居住的地方的租金成本很高。

  PClean 拉近人机之间距离

  这篇论文的第一作者是MIT电子工程和计算机科学系(EECS)的博士生Alex Lew,合著者还包括 EECS 的博士生 Monica Agrawal、 EECS 的副教授 David Sontag 和脑与认知科学系的首席研究科学家 Vikash k. Mansinghka。

  他们认为PClean 提供了一种从计算机中检索常识的一种方法,就像人们寻求彼此帮助的方式一样。

本文地址:http://www.reviewcode.cn/youxikaifa/211355.html 转载请注明出处!


伍佰目录声明:本站部分文章来源于网络,版权属于原作者所有。如有转载或引用文章/图片涉及版权问题,请联系我们处理.我们将在第一时间删除! 联系邮箱:tsk@qq.com

快速链接

最新收录

最新点入