初心者向けではないですが、
マイクロソフトがOCR用のライブラリを提供しているのでそれを使うとか。
Office 2007以前が必要で、標準ではインストールされないようです。
Office 2010以降の人やOfficeを持っていない人は、
無償提供されている「SharePoint Designer 2007」を入れると入ります。
Microsoft Office 2010 で使用する MODI のインストール
http://support.microsoft.com/kb/982760/ja
SharePoint Designer 2007を入れた後もWindows Updateをしないと、
大きめなファイルをOCRする時に落ちてしまうバグが修正されないようです。
参考:
http://tmp.junkbox.info/e48.html
http://www.crystal-creation.com/software/technical-information/library/modi/reference/document.htm
#define CLSID_MODI "{40942A6C-1520-4132-BDF8-BDC1F71F547B}"
#define IID_IDocument "{D4073843-A58A-469A-A8E2-CFF3FF77EE4E}"
#define IID_ILayout "{C300C846-A3FD-4A5B-AD65-4A6AB46B7821}"
#define IID_IImage "{AC0D48A6-886D-4EB5-A8A1-093D60B9A84A}"
#usecom IDocument IID_IDocument CLSID_MODI
#usecom ILayout IID_ILayout CLSID_MODI
#usecom IImage IID_IImage CLSID_MODI
dialog "*", 16
if stat == 0 : end
fname = refstr
screen 1
picload fname
gsel 0, 1
newcom pDoc, IDocument
if varuse(pDoc) == 0 {
dialog "Microsoft Office Document Imaging Type Library が使用できません。"
end
}
pDoc->"Create" fname
pDoc->"OCR" 17, 0, 0 // 9 英語、17 日本語
pImg = pDoc("Images")
mes "ページ数: "+pImg("Count") // ページ数
repeat pImg("Count")
pImg = pDoc("Images", cnt)
querycom ppImg, pImg, IImage
pLayout = ppImg("Layout")
querycom ppLayout, pLayout, ILayout
mes ppLayout("Text")
loop
delcom ppImg
delcom ppLayout
delcom pImg
delcom pDoc