pdftotext -raw [PDFファイル名]官報 のPDFをテキスト化し、
kenkin.pyでJSONに構造化、検索可能にしました。
データは全て官報から抽出していますが、PDFという加工しにくいデータから抜き取っているため、何らかの間違いが起きる可能性もあります
正確を期すべきご利用の際は必ず官報も見てください。

同じような社名でも所在地が違って別の会社であることもありうるので注意してください。

pdftotext を使うと、PDFにパスワードがかけられていない場合で、かつ文字情報が残っている場合は完璧なテキストが抽出できますが、多くの場合、構造が崩れるのでパースをしなければなりません。
崩れ方が一定で機械的に構造化できることがわかったので、今回は kenkin.py でレキシカルアナライザ的に構造化しました。
OCRでは文字に誤りが起きることがありますが、こちらはOCRではなく、文字認識に起因する間違いはありません。

kenmo.fm