亚马逊将人工智能引入云存储,用于保护用户数据安全
亚马逊成为第一个将人工智能引入云存储的公共云服务提供商,以帮助用户保护数据安全。 被称为 亚马逊 Macie的新服务依靠 机器学习 ,自动发现,分类和保护存储在AWS中的敏感数据。该服务报告与存储数据,及其权限和访问模式有关的潜在风险。
亚马逊S3是非常流行的云存储服务,受到众多客户的信赖。 从大型企业到初创企业,各个规模的企业在S3内存储企业内容,文件以及其他数字资产。在将文档上传到Amazon S3之前,客户预计会创建存储桶,这是保存文档和数据的逻辑容器。每一个存储桶都有不同级别的权限,以启用或禁用文件访问。互联网上的任何人都可以读取存储在具有公共访问权的存储桶中的数据。
虽然有多种技术和好的做法可以保护S3存储桶和文件,但是许多用户并不认真对待它们。2017年5月,Gizmodo报告说,在 拥有公开访问权限的亚马逊S3上发现6万多个美国政府的敏感文件。约28GB的数据包含未加密密码,这些密码由最高机密清关设施的政府承包商所有。 今年年初,美国国家地理空间情报局(NGA)聘请Booz Allen收集,分析由间谍卫星和空中无人机采集的地理空间数据。UpGuard的网络风险安全分析师Chris Vickery发现,许多密码和密钥都属于Booz Allen的员工,他们在可公开访问的亚马逊S3存储桶中进行NGA项目的工作。这只是敏感数据被公开至何处的一个例子。
亚马逊Macie的主要目标是查找和报告存储在未完全受保护的云平台上的敏感数据。 通过分析用法和访问模式,这已经不是微不足道的建议了。当Macie发现来自异常不同的IP地址的新用户正在访问文档时,它会提醒客户。
AWS正利用有监督和无监督的机器学习算法使Macie智能化。 它使用自然语言处理(NLP)来解析存储在文档中的数据,以识别信用卡号,社会安全号码,电子邮件,密码,API密钥,SSH密钥和其他敏感信息等模式。根据已知数据的敏感性和关键性,Macie将文档归类为事先定义风险级别。完成分类后,Macie将开始监控高风险数据的访问方式。Macie运用 人工智能 来了解历史数据访问模式,并自动评估用户,应用程序和服务帐户的活动。这可以帮助客户检测未经授权的访问,并避免数据泄露。
亚马逊Macie是如何获得分类和推荐的数据安全机制,这备受关注。该服务依赖于三个独立的输入:
数据 ——Macie从存储在Microsoft Word,Excel和文本文件等的实际数据中提取关键词。Macie还考虑文件扩展名(MIME类型)来评估数据的敏感度。例如,PEM文件会影响Macie将文件移到比TXT文件更高的风险级别。
元数据 ——Macie还会考虑在文件,S3文件和存储桶中可得的元数据。许多时候,在分类文档时,元数据比数据更有帮助。
访问信息和凭证 ——Macie接入Amazon CloudTrail,这是AWS中的一个审查跟踪服务,几乎存录了对AWS资源做出的所有API请求。该服务利用CloudTrail的能力采集在S3文件上的目标级API活动。除了CloudTrail之外,Macie还从身份及访问管理(IAM)中提取与用户和角色相关的信息。
上述三个数据源作为Macie发现,分类和保护数据的关键输入。虽然Amazon S3是Macie唯一支持的数据源,但AWS预计会引入Amazon RedShift,Amazon RDS,Amazon Elastic File System(Amazon EFS)等其他服务。在Macie开始与AWS的数据服务结合之前,这只是时间问题。像大多数基于机器学习的算法一样,利用额外数据,Macie只会变得更加优秀。这会临时提供该服务的分类和风险分析能力。
亚马逊Macie并不是AWS的自产技术,其实该服务是来自Harvest.ai公司,今年年初,AWS以2000万美元收购了这一初创公司。Harvest.ai打造了一个名为Macie Analytics的产品,可以报告和防止企业的数据泄露。该产品现与Amazon S3结合成为Amazon Macie。
亚马逊Macie只是启用人工智能的基础架构服务的开始。 随着对机器学习和人工智能的大量投资,预计AWS,谷歌和微软会将智能化引入云操作,DevOps和安全域。