Yukai's Blog

GANomaly

发表于 2021-12-07 更新于 2022-05-23 分类于 deep learning ， object detection ， anormaly detection

GANomaly

一，简介

异常检测旨在只使用正常样本建模从而能够区分OK样本与NG样本，所面对的场景的数据分布极不平衡，通常OK样本非常多，而NG样本非常少。

自编码器是异常检测算法中比较经典的模型，它利用大量OK训练一个自编码网络，然后通过原图与重构图像之间的重构误差来检测NG样本，但该方法非常容易受噪声影响，其对NG样本也能够重建，导致所谓的重构误差“崩塌”。

GANomaly 采用编码器-解码器-编码器的模型结构，同时对“原图-》重建图” 及“原图的高维特征编码->重建图的高维特征编码”进行重构误差约束。另外引入生成对抗网络的对抗训练思想， Encoder-Decoder-Encoder结构当作生成网络G-Net，又定义了一个判别网络D-Net。

推理接断，用于推断异常的不是原图和重建图的差异，而是第一部分编码器产生的隐空间特征（原图的编码）和第二部分编码器产生的隐空间特征（重建图的编码）的差异。这种方法更关注图片实质内容的差异，对图片中的微小变化不敏感，因而能解决自编码器中易受噪声影响的问题，鲁棒性更好。

阅读全文 »

Caffe、TensorFlow及Pytorch通道维度顺序

发表于 2021-10-27 更新于 2022-01-25 分类于 DL Framework ， deep learning ， object detection.

Caffe：NCHW
TensorFlow：默认为NHWC（但可以设置为NCHW）, NHWC的访存局部性更好（cache利用率高），NCHW需要等所有通道输入准备好才能得到最终输出结果，需要占用较大的临时空间。
Pytorch：NCHW
NCHW为NVIDIA Cudnn默认格式，使用GPU加速时用NCHW格式速度大部分情况下会更快。

AdaFocus算法记录

发表于 2021-10-25 更新于 2022-01-25 分类于 deep learning ， object detection ， OCR ， Video Recognition

转载自：计算机视觉Daily，个人学习记录

1. 简介

AdaFocus为被ICCV-2021会议录用为Oral Presentation的一篇文章：Adaptive Focus for Efficient Video Recognition。其从空间特征角度出发，从降低空间冗余性来实现高效视频识别。

现有高效视频识别算法往往关注于降低视频的时间冗余性（即将计算集中于视频的部分关键帧），如图1 (b)。本文则发现，降低视频的空间冗余性（即寻找和重点处理视频帧中最关键的图像区域），如图1 (c)，同样是一种效果显著、值得探索的方法；且后者与前者有效互补（即完全可以同时建模时空冗余性，例如关注于关键帧中的关键区域），如图1 (d)。在方法上，本文提出了一个通用于大多数网络的AdaFocus框架，在同等精度的条件下，相较AR-Net (ECCV-2020)将计算开销降低了2.1-3.2倍，将TSM的GPU实测推理速度加快了1.4倍。

论文：https://arxiv.org/pdf/2105.03245.pdf
Code：https://github.com/blackfeather-wang/AdaFocus
B站介绍：https://www.bilibili.com/video/BV1vb4y1a7sD/
作者个人网站：https://www.rainforest-wang.cool/

阅读全文 »

日常记录

发表于 2021-10-22 更新于 2022-09-22 分类于 deep learning ， object detection ， OCR ， Video Recognition ， opencv

Papers with Codes 是一个总结了机器学习论文及其代码实现的网站，这个网站最好的地方就是对机器学习做了任务分类，检索对应的模型非常方便。
- 地址：https://paperswithcode.com
ROC/AUC、真正率（TPR）、假正率（FPR） https://zhuanlan.zhihu.com/p/46714763

阅读全文 »

FixMatch算法记录

发表于 2021-10-20 更新于 2022-01-25 分类于 deep learning ， object detection.

1. 简介

深度学习在具体的商业落地场景中需要依赖于海量的数据。算法，算力，数据是驱动Deep Learning 运行的三大动力，而数据又是其中重要影响因素，模型效果80%靠数据，20%靠算法。在工业场景中，面对众多非标准化产品，频繁更换型号的场景，进行数据标准的成本是巨大的，而且客户对某一款产品的算法落地时间有限制，且如果模型对相似型号的兼容性较差，也会引起客户对AI方案的不信任。

在此种背景下，如何利用大量未标注的图像以及部分已标注的图像来提高模型的性能就变得尤为重要。其中，半监督学习（SSL）就是一种值得尝试的方案，Fix-Match, 是谷歌Google Brain 提出的一种半监督学习方法，对于解决数据收集困难，标注成本高的CV问题会有一定的帮助。

FixMatch： Simplifying Semi-Supervised Learning with Consistency and Confidence
主要贡献：利用一致性正则化（ Consistency regularization）和伪标签（pseudo-labeling）技术进行无监督训练。SOTA 精度，其中CIFAR-10有250个标注，准确率为94.93%。甚至仅使用10张带有标注的图在CIFAR-10上达到78％精度。
论文： https://arxiv.org/abs/2001.07685
code： https://github.com/google-research/fixmatch

阅读全文 »

FlexMatch算法记录

发表于 2021-10-20 更新于 2022-01-25 分类于 deep learning ， object detection.

转载自知乎 NeurIPS 2021 | 助力半监督学习：课程伪标签方法FlexMatch和统一开源库TorchSSL 作者王晋东不在家

1. 简介

FlexMatch为FixMatch的改进版，第一作者为日本东京工业大学的张博闻和王一栋，其他作者来自东京工业大学和微软亚洲研究院。文章针对半监督提出了 课程伪标签(Curriculum Pseudo Labeling, CPL) 的方法，其能被简单地应用到多个半监督方法上，且不会引入新的超参数和额外的计算开销。多项实验证明，CPL不仅能提升已有方法的精度，也能大幅提升收敛速度（例如，在一些数据集上比Google的FixMatch快5倍）。特别地，文章中将CPL应用在FixMatch后的新算法命名为FlexMatch，并在多个图像分类数据集上取得了state-of-the-art的效果。除此之外，本文还开源了一个统一的基于Pytorch的半监督方法库TorchSSL，公平地实现了诸多流行的半监督方法，方便相关领域进行进一步研究。

论文标题：FlexMatch: Boosting Semi-Supervised Learning with Curriculum Pseudo Labeling
论文地址：http://arxiv.org/abs/2110.0826
代码地址：https://github.com/TorchSSL/TorchSSL

阅读全文 »

YOLOv1 网络架构、训练时样本标签及Loss设置、推理时输出分析

发表于 2021-05-19 更新于 2022-01-25 分类于 deep learning ， object detection ， OCR

1. YOLOv1 网络架构

Reference

https://blog.csdn.net/qq_43602882/article/details/105910176