Posts Tagged “captcha”

专门针对验证码写了个识别脚本,当然不是光为识别验证码而识别的咯,至于拿来干什么“坏事”,再说吧。识别验证码也算挑战大自然了,当年百度复赛那道验证码识别就让无数人肉牛满面,所幸这需要识别的验证码只有数字,而且字迹工整,颜色统一,格式规范,背景简单。识别脚本利用基于ImageMagickImage::Magick处理验证码,分离出每个数字的二值图像,然后利用基于ImgSeekImage::Seek通过相似度比较识别验证码。

captcha

todigits是将验证码图像文件转换成每个数字的二值图像的函数。首先将验证码转为灰度图,再选择合适的阀值,将图像二值化。最后把每个数字裁剪出来并去掉白边。硬编码万岁!

# todigits.pl
use strict;
use Image::Magick;

sub todigits {
    my ($n, $threshold, $w, $h, $x, $y) = /该信息已被绿坝屏蔽/;
    my $filename = shift @_;
    my @retval = ();
    my $image = Image::Magick->new;

    $image->Read($filename);
    $image->Quantize(colorspace => 'gray');
    $image->Threshold(threshold => $threshold, channel => 'All');
    for (my $i = 0; $i < $n; ++$i) {
        my $digit = $image->Clone();
        $digit->Crop(width => $w, height => $h, x => $x + $i * $w, y => $y);
        $digit->Trim();
        push @retval, $digit;
    }
    return @retval;
}

1;

准备足够多的验证码,用脚本测试一下todigits,同时也生成了ImgSeek所需的所有数字的二值图像样本。

0123456789

Comments 19 Comments »