博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Day 18 ggplot2及clustering 的学习
阅读量:3937 次
发布时间:2019-05-23

本文共 862 字,大约阅读时间需要 2 分钟。

早已破了最少两天更新一次的flag,但还是要坚持写下去吧,也算是对懒散的自己的一个额外督促。

今日学完了exploratory data analysis的第三周内容,主要介绍的是hierarchical clustering、k-means clustering、dimension reduction还有之前已经swirl过的working with plots部分。另外今天还完成了之前上周遗留的ggplot2的swirl练习。将一些学习重难点记录如下:

  1. 聚类方法的学习对我来说是一个全新的东西,但好在还算好理解。在我看来, 其核心逻辑在于:找到测量距离的方法->找到合并相似距离的点的方法。
    hierarchical clustering和k-means clustering的逻辑及操作顺序是不一样的,要注意。虽然上了视频课,但其实对这两种聚类方法的认知还是一知半解的,仍需进一步学习;其他的聚类方法也应该多做一些了解。

分享一个层次聚类分析方法的解析:

  1. dimension reduction–今日花了很多时间看这个,主要由于与线性代数联系紧密,所以又恶补了很多线代的相关知识来唤起自己的回忆。但这一遍看完也只是大概有了了解,仍然没有办法自己计算或推倒,仍需要多复习一下线性代数并且多对降维进行了解,毕竟是未来一定会接触到的相对基础的内容。
    对于pca和svd的图像中那些显示数据趋势的点,自己仍然有点懵懂,还需要找时间深入研究。
    线性代数的复习也迫在眉睫,尤其是矩阵计算、特征值特征向量这些基础内容。

相关的一些解析链接如下:

pca解析:
svd 解析:
特征值和特征向量在图像处理里的应用:

  1. ggplot2练习中的所得

ggplot2 中包含的7个components:

要注意:当在定义关于图像绘制内容时,如果赋值不是常数,则一定要先在外层嵌套aes函数,再在里面进行定义!
与lattice对待outlier的处理方式类似,ggplot2中要特别指定coord_cartesian来对显示的值域做限制:

转载地址:http://nquwi.baihongyu.com/

你可能感兴趣的文章
word文档不能显示图片的处理
查看>>
linux的多桌面环境Xephyr
查看>>
初探debian桌面的管理启动
查看>>
七层协议图
查看>>
华为交换机作为AC的条件
查看>>
禁用Ubuntu 15.04登录界面显示客人会话(简单-实用)
查看>>
linux X下安装的软件
查看>>
Linux监测某一时刻对外的IP连接情况
查看>>
CentOS7 最小环境安装Jumpserver 1.0版脚本
查看>>
X-Security X的安全控制
查看>>
openVAS的安装
查看>>
Centos 6.5 初始安装无网卡驱动解决方法
查看>>
linux中的网桥bridge
查看>>
linux中的teaming与bonding
查看>>
LVM
查看>>
用shell切分文件--split
查看>>
python中判断字符是否为中文
查看>>
Python - 利用zip函数将两个列表(list)组成字典(dict)
查看>>
python-全角转半角
查看>>
Python pass语句作用与用法
查看>>