Ethan's Blog


  • Home

  • Archives

  • Tags

  • Search

模型评估与选择

Posted on 2017-03-29

训练误差与过拟合

精度(accuracy),精度 = 1-错误率。

  • 在训练集上的误差称为训练误差(training error)
  • 在新样本上的误差称为泛化误差(generalization error)

实际希望的,是在新样本上能表现得很好的学习器。

  • 过拟合(overfitting):把训练样本自身的一些特点,当作了所有潜在样本都会具有的一般性质。
  • 欠拟合(underfitting):对训练样本的一般性质尚未学好。

过拟合是无法彻底避免的。若可彻底避免过拟合,则通过经验误差最小化就能获得最优解。

评估方法

以测试集的测量误差(testing error)作为泛化误差的近似。
测试集应该尽可能与训练集互斥,通过对数据集 D 进行适当的处理,从中产生训练集 S 和测试集 T。

Read more »

AOAPC 读书笔记 Ⅰ

Posted on 2017-03-24

程序设计入门

算术表达式

整数 / 整数 = 整数,浮点数 / 浮点数 = 浮点数。

变量及其输入

scanf 中占位符和变量的数据类型一一对应,每个变量前需要加“&”符号;
输入输出过程是自动的,没有人工干预。输入前不要打印提示信息,输出完毕后应立即终止程序;
尽量用 const 关键字声明常数。

顺序结构程序设计

交换变量:

  • 三变量法(适用范围广,推荐使用)

    Read more »

机器学习

Posted on 2017-03-23

引言

经验通常以数据形式存在
机器学习是研究关于学习算法的学问
模型指全局性结果,模式指局部性结果。

基本术语

记录的集合称为一个数据集(data set)
特征张成的空间称为特征空间(feature space)
一个样本(sample)称为一个特征向量(feature vector)
训练样本组成的集合称为训练集(training set)
拥有了标记(label)信息的样本,称为样例(example)。
学习任务:

  • 二分类任务(binary classification)
  • 多分类任务(multi-class classfication)
  • 回归任务(regression)
Read more »

影视大数据分析

Posted on 2017-03-12

项目背景

文本分析、情感分析和社交分析帮助你在一定规模上转化成客户、病人、公众以及市场的“声音”。这项技术目前大量地应用于一系列的工业产品中,从医疗健康到金融、媒体、甚至客户市场。它们从线上、社交网络、企业数据源中提取商业洞察力。
本次项目通过对爬取的用户评论数据进行分析,对各个不同的电影进行相关的预测。关键的分类部分是基于有监督的机器学习,以不同机器学习算法为基础构建分类器对文本分类。

总体设计

本课题采用有监督的机器学习方法。对初始数据处理后,通过人工标注、特征选取、降维、训练,最终得到准确度高的分类器对所有数据进行输出。

Read more »

医学辅助诊断系统

Posted on 2017-03-08

图像处理算法

预处理

在获取到上传的血常规化验单图片后,项目中对其进行了预处理,作用主要是为了减小噪声,为后边的识别算法服务,在这里主要用到了以下两个方法:

  • 高斯平滑

    1
    img_gb = cv2.GaussianBlur(img_gray, (gb_param, gb_param), 0)
  • 腐蚀、膨胀

    1
    2
    closed = cv2.morphologyEx(img_gb, cv2.MORPH_CLOSE, kernel)
    opened = cv2.morphologyEx(closed, cv2.MORPH_OPEN, kernel)
Read more »
1…535455
necusjz

necusjz

271 posts
16 tags
© 2016 - 2026 necusjz
Powered by Hexo
Theme - NexT.Mist