这个应用让你一秒搭建大数据环境,了解一下?

大数据科学机器学习人工智能越来越热门,公园下围棋的大爷都能和你聊聊“阿尔法狗”,很多非计算机专业的学生也开始学习大数据相关课程。但对于非计算机专业的学生来说,在本机上配置编程环境是一个非常大的挑战,需要下载安装AnacondaJupyterNotebookScikit-Lean学习库,Tensor-Flow……这对于一个新手来说往往需要花上几天的时间,甚至还可能需要请专业人士帮忙。

针对于此,UZER.ME专门上线了大数据编程环境,让用户无需下载安装配置任何环境,点击即可打开进行大数据编程。登录UZER.ME,认准下面这个图标,用鼠标点击,用心去感受。

 

这个应用让你一秒搭建大数据环境,了解一下?

接下来,本文将一步一步告诉大家如何利用UZER.ME上的大数据编程环境,结合一组美国加州的房地产数据来进行数据可视化。

第一步:在UZER.ME上打开大数据编程,创建一个新项目

 

这个应用让你一秒搭建大数据环境,了解一下?

第二步:下载加州房地产数据,

首先,输入以下代码

https://raw.githubusercontent.com/ageron/handson-ml/master/datasets/housing/housing.tgz

下载房地产数据并保存在文件datasets/housing/housing.tgz,然后解压到datasets/housing/housing.csv文件中。数据结束后使用“SHIFT+ENTER”执行这段代码。

这个应用让你一秒搭建大数据环境,了解一下?

接着输入第二段代码并使用”SHIFT+ENTER”执行这段代码。这段代码从datasets/housing/housing.csv文件读取数据,并打印出前5行数据。如下图,每一行数据对应一个小社区,经度,维度,房屋年龄中位数,房间数量,人口数量,家庭数量,家庭收入中位数,房屋价格中位数,是否靠近海岸,等等。。。

这个应用让你一秒搭建大数据环境,了解一下?

第三步:数据探索

输入housing.info() 并使用SHIFT+ENTER执行这段代码。从结果可以看出这个数据集一共有20640条数据,对应加州两万多个社区的房屋价格。

这个应用让你一秒搭建大数据环境,了解一下?

输入housing.describe()并使用SHIFT+ENTER执行这段代码。从结果可以看出每个Attribute的数据分布,平均值,标准差,最小值,最大值,以及在各个百分位的值。

这个应用让你一秒搭建大数据环境,了解一下?

第四步:数据可视化

执行如下代码可以画出数据各个Attribute的直方图。

这个应用让你一秒搭建大数据环境,了解一下?

执行以下代码

housing.plot(kind=“scatter”,x=“longitude”, y=“lattitude”)

可以画出数据的地理位置分布(加州地理形状的轮廓)

这个应用让你一秒搭建大数据环境,了解一下?

在上面的代码中加一个透明度参数alpha=0.1,可以从图上看出房屋分布的密集度。房屋密集的区域颜色会比较深,反之房屋比较稀疏的区域颜色就比较浅。

这个应用让你一秒搭建大数据环境,了解一下?

使用下列代码

housing.plot(kind=“scatter”,x=“longitude”, y=“latitude”, alpha=0.4, s=housing[“population”]/100,label=“population”, c=“median_house_value”, cmap=plt.get_cmap(“jet”),colorbar=True)

可以进一步可视化更多信息。每一个社区对应一个圆圈,圆圈的半径越大人口数量就越大;颜色对应房屋价格,红色代表高价蓝色代表低价。从图表中我们可以清晰的看到房屋价格和人口密集程度之间的关联关系,在洛杉矶和旧金山一带的房屋价格比较贵。也可以看出房屋价格和位置的关系,在靠近海岸线的地方房屋价格也是比较贵的。

 

这个应用让你一秒搭建大数据环境,了解一下?

———————————————————————————————————————

未完待续……

UZER.ME专门上线了大数据编程环境,让用户无需下载安装配置任何环境,点击即可打开进行大数据编程。如果在使用过程中遇到什么问题,欢迎加入QQ群OR

登录bbs.uzer.me,反馈给我们。

这个应用让你一秒搭建大数据环境,了解一下?

 

始发于微信公众号:UzerMe研习社



Leave a Comment