模型评估与选择

Posted on 2017-03-29

训练误差与过拟合

精度（accuracy），精度 = 1-错误率。

在训练集上的误差称为训练误差（training error）
在新样本上的误差称为泛化误差（generalization error）

实际希望的，是在新样本上能表现得很好的学习器。

过拟合（overfitting）：把训练样本自身的一些特点，当作了所有潜在样本都会具有的一般性质。
欠拟合（underfitting）：对训练样本的一般性质尚未学好。

过拟合是无法彻底避免的。若可彻底避免过拟合，则通过经验误差最小化就能获得最优解。

评估方法

以测试集的测量误差（testing error）作为泛化误差的近似。
测试集应该尽可能与训练集互斥，通过对数据集 D 进行适当的处理，从中产生训练集 S 和测试集 T。

AOAPC 读书笔记 Ⅰ

Posted on 2017-03-24

程序设计入门

算术表达式

整数 / 整数 = 整数，浮点数 / 浮点数 = 浮点数。

变量及其输入

scanf 中占位符和变量的数据类型一一对应，每个变量前需要加“&”符号；
输入输出过程是自动的，没有人工干预。输入前不要打印提示信息，输出完毕后应立即终止程序；
尽量用 const 关键字声明常数。

顺序结构程序设计

交换变量：

三变量法（适用范围广，推荐使用）

Read more »

机器学习

Posted on 2017-03-23

引言

经验通常以数据形式存在
机器学习是研究关于学习算法的学问
模型指全局性结果，模式指局部性结果。

基本术语

记录的集合称为一个数据集（data set）
特征张成的空间称为特征空间（feature space）
一个样本（sample）称为一个特征向量（feature vector）
训练样本组成的集合称为训练集（training set）
拥有了标记（label）信息的样本，称为样例（example）。
学习任务：

二分类任务（binary classification）
多分类任务（multi-class classfication）
回归任务（regression）

影视大数据分析

Posted on 2017-03-12

项目背景

文本分析、情感分析和社交分析帮助你在一定规模上转化成客户、病人、公众以及市场的“声音”。这项技术目前大量地应用于一系列的工业产品中，从医疗健康到金融、媒体、甚至客户市场。它们从线上、社交网络、企业数据源中提取商业洞察力。
本次项目通过对爬取的用户评论数据进行分析，对各个不同的电影进行相关的预测。关键的分类部分是基于有监督的机器学习，以不同机器学习算法为基础构建分类器对文本分类。

总体设计

本课题采用有监督的机器学习方法。对初始数据处理后，通过人工标注、特征选取、降维、训练，最终得到准确度高的分类器对所有数据进行输出。

医学辅助诊断系统

Posted on 2017-03-08

图像处理算法

预处理

在获取到上传的血常规化验单图片后，项目中对其进行了预处理，作用主要是为了减小噪声，为后边的识别算法服务，在这里主要用到了以下两个方法：

高斯平滑

1	img_gb = cv2.GaussianBlur(img_gray, (gb_param, gb_param), 0)

腐蚀、膨胀

1 2	closed = cv2.morphologyEx(img_gb, cv2.MORPH_CLOSE, kernel) opened = cv2.morphologyEx(closed, cv2.MORPH_OPEN, kernel)