年金特需のPSRはどれくらい?

選挙前ということもあって年金に関してはとにかくなんでもやれ!みたいな感じで話が進んでいるようで。今日読んだ日経には年金記録を再調査 社保庁方針 2億7000万件照合なんて記事が一面にでていた。

  • マイクロフィルムに残っている手書き台帳をOCR処理
  • それで読んだ情報をもとに、新たにデータベースを構築
  • これで2億7000万件照合...

開発を請け負う企業の営業さんはうっはうはなんだろうなぁ。特需。神風。

開発部隊はどうなんだろ。ポイントはOCR認識率の定義と保証か。

  • 読めないものは「読めない」と判断し、読めているものからのみ認識率を算出する
  • 全件数に対して認識率を算出する
  • 1文字あたりの認識率保証
  • 連続文字列での認識率保証

賢い営業さんなら、「読めないものは読めないと判断」「1文字あたりの認識率保証」でいくんだろうね。これなら開発部隊のPSR[*1]も低く抑えられるだろう。ただし、費用対効果はひどいものになるだろうね。「ほとんどOCRで読めませんでした。終了。」となる可能性大だから。でも、今回の案件は選挙に対するパフォーマンスだろうからシステムが完成して運用開始される頃にはどうでもよくなっている。仕事を取るのならこの要件でいくべきでしょ。

頭の悪い営業さんは、「全件数に対する認識率です!」「連続文字列での認識率を99.9%保証します!」なんて約束しちゃうかも。この場合、開発部隊は屍累々のPSR=50なんて大台に乗る可能性あり[*2]。検証とチューニングの工程でみんなくたばっちゃうって。

OCRには期待しない方がよい

  • 郵便番号、住所、氏名でだいたい20文字
  • 1文字あたり99.7%の認識率でも20文字連続なら94.1%。[*3]
  • これで2億7000万件調べると、1574万件の不正解がでることになる。これらは手作業で処理するの??

*1:Project Suicide Ratio: プロジェクト参加者をMM換算したときの自殺率

*2:50MMあたりに一人自殺

*3:0.997の20乗