Firechecking

机器学习实战:K-近邻算法

参考链接

  1. 存在一个每个数据都有标签的训练样本集,即知道样本集中每一数据与所属分类的对于关系。
  2. 输入一个没有标签的新数据后,将新数据的每个特征与样本集中数据对于的特征进行比较,然后提取样本集中特征最相似的分类标签。
  3. 一般只选取样本数据集中前k个最相似数据,这就是k-近邻算法中k的出处,通常k取不大于20的整数。
  4. 最后选择k个最相似数据中出现次数最多的分类,作为新数据的分类