ಗುರುವಾರ, ಜನವರಿ 14, 2016

ಓಸಿಆರ್ ಎಂಬ ಅಕ್ಷರ ಜಾಣ

ಟಿ. ಜಿ. ಶ್ರೀನಿಧಿ

ಒಬ್ಬೊಬ್ಬರ ಕೈಬರಹ ಒಂದೊಂದು ರೀತಿ. ಕೆಲವರದ್ದು ಮುತ್ತು ಪೋಣಿಸಿದಷ್ಟು ಸುಂದರವಾಗಿದ್ದರೆ ಇನ್ನು ಕೆಲವರು ಬರೆದದ್ದು ಇಂಕಿನಲ್ಲಿ ಬಿದ್ದ ಜಿರಲೆ ಓಡಾಡಿದಂತೆ ಕಾಣುತ್ತದೆ.

ಇಷ್ಟೆಲ್ಲ ವಿವಿಧ ಬಗೆಯ ಕೈಬರಹಗಳನ್ನು ಓದುವುದು ದೊಡ್ಡ ಸವಾಲೇ ಸರಿ. ಚೆಂದದ ಬರಹಗಳನ್ನೇನೋ ಸರಾಗವಾಗಿ ಓದಬಹುದು; ಆದರೆ ಸುಸ್ಪಷ್ಟವಲ್ಲದ ಕೈಬರಹದಲ್ಲಿ ಏನು ಬರೆದಿದ್ದಾರೆ ಎಂದು ತಿಳಿಯುವುದೇ ಕಷ್ಟ. ಡಾಕ್ಟರು ಬರೆದದ್ದನ್ನೆಲ್ಲ ಸರಾಗವಾಗಿ ಓದಿಕೊಳ್ಳಲು ಎಲ್ಲರೂ ಮೆಡಿಕಲ್ ಸ್ಟೋರಿನವರೇ ಆಗಲು ಸಾಧ್ಯವೇ?

ಚಿಕ್ಕಂದಿನಿಂದಲೇ ಅಕ್ಷರಗಳ ಪರಿಚಯವಿದ್ದು, ಅವುಗಳ ಗಾತ್ರ-ವಿನ್ಯಾಸಗಳಲ್ಲಿನ ಬದಲಾವಣೆಗಳನ್ನು ಸುಲಭವಾಗಿ ಗುರುತಿಸುವ ಶಕ್ತಿಯೂ ಇರುವ ನಮ್ಮ ಕಥೆಯೇ ಹೀಗೆ. ಇನ್ನು ಯಾರೋ ಗೀಚಿದ ಬರಹವನ್ನು ಓದು ಎಂದು ಕಂಪ್ಯೂಟರಿಗೆ ಹೇಳಿದರೆ ಏನಾಗಬೇಡ? ಕೈಬರಹ ಹಾಗಿರಲಿ, ಮುದ್ರಿತ ಅಕ್ಷರಗಳನ್ನಾದರೂ ಓದಲು ಕಂಪ್ಯೂಟರಿಗೆ ಸಾಧ್ಯವೇ?

ಖಂಡಿತಾ ಸಾಧ್ಯ.
ಸ್ವಂತ ಬುದ್ಧಿಯಿಲ್ಲದ ಕಂಪ್ಯೂಟರಿಗೂ ಅಕ್ಷರಗಳನ್ನು ಗುರುತಿಸಲು ನೆರವಾಗುವುದು 'ಆಪ್ಟಿಕಲ್ ಕ್ಯಾರೆಕ್ಟರ್ ರೆಕಗ್ನಿಶನ್' ಎನ್ನುವ ತಂತ್ರಜ್ಞಾನ. ಈ ಹೆಸರಿನ ಹ್ರಸ್ವರೂಪವೇ ಓಸಿಆರ್. ಹಳೆಯ ಪುಸ್ತಕಗಳಲ್ಲಿರುವ ಪಠ್ಯವನ್ನು ಗುರುತಿಸಿ ಕಂಪ್ಯೂಟರೀಕರಿಸಲು, ಮುದ್ರಿತ ಅಥವಾ ಲಿಖಿತ ದಾಖಲೆಗಳನ್ನು (ಉದಾ: ಅರ್ಜಿಗಳು, ಪತ್ರದ ಮೇಲಿನ ವಿಳಾಸ ) ಸ್ವಯಂಚಾಲಿತವಾಗಿ ವರ್ಗೀಕರಿಸಲು ಅಥವಾ ಸಂಸ್ಕರಿಸಲು ಓಸಿಆರ್ ತಂತ್ರಜ್ಞಾನ ನೆರವಾಗುತ್ತದೆ.

ಓಸಿಆರ್ ಎಂದರೇನು? ನೀವು ಈ ಲೇಖನ ಓದುತ್ತಿದ್ದೀರಲ್ಲ, ನಿಮ್ಮ ಕಣ್ಣು ಇಲ್ಲಿರುವ ಅಕ್ಷರ ಹಾಗೂ ಲೇಖನಚಿಹ್ನೆಗಳನ್ನು ನೋಡುತ್ತಿದೆ - ನೆನಪಿನಲ್ಲಿರುವ ಪಾಠಕ್ಕೆ ಹೋಲಿಸುವ ಮೆದುಳು ಅವುಗಳನ್ನು ಗುರುತಿಸುತ್ತಿದೆ. ಅಕ್ಷರಗಳು ಪದಗಳಾಗುವುದು, ಪದಗಳು ಸಾಲುಗಳಾಗುವುದು ಹಾಗೂ ಅವೆಲ್ಲ ಒಟ್ಟಾಗಿ ಅರ್ಥವಾಗುವುದೇನಿದ್ದರೂ ಆನಂತರದ ಕ್ರಿಯೆಗಳಷ್ಟೆ.

ಕಣ್ಣು-ಮೆದುಳು ಜೊತೆಯಾಗಿ ಅಕ್ಷರಗಳನ್ನು ಗುರುತಿಸುವ ಕೆಲಸ ಮಾಡುತ್ತವಲ್ಲ, ಇದಕ್ಕೆ ನಾವು ಎಷ್ಟು ಹೊಂದಿಕೊಂಡುಬಿಟ್ಟಿದ್ದೇವೆ ಎಂದರೆ ಹಾಗೊಂದು ಕೆಲಸ ನಡೆಯುತ್ತದೆ ಎನ್ನುವುದೇ ನಮ್ಮ ಗಮನಕ್ಕೆ ಬರುವುದು ಅಪರೂಪ. ನಮ್ಮ ಅರಿವಿಗೇ ಬಾರದಷ್ಟು ಕ್ಷಿಪ್ರವಾಗಿ ಜರುಗುತ್ತದಲ್ಲ, ಆಕಾರವನ್ನು ಗಮನಿಸಿ ಅಕ್ಷರಗಳನ್ನು ಗುರುತಿಸುವ ಈ ಕ್ರಿಯೆ, ಇದರ ಹೆಸರೇ ಆಪ್ಟಿಕಲ್ ಕ್ಯಾರೆಕ್ಟರ್ ರೆಕಗ್ನಿಶನ್, ಅಂದರೆ ಓಸಿಆರ್. ಈ ಕೆಲಸವನ್ನು ಕಂಪ್ಯೂಟರಿನಲ್ಲಿ ಮಾಡಲು ಓಸಿಆರ್ ತಂತ್ರಾಂಶಗಳು ಬಳಕೆಯಾಗುತ್ತವೆ.

ಅಕ್ಷರಗಳನ್ನು ನೋಡಲು ಕಂಪ್ಯೂಟರಿಗೆ ಕಣ್ಣಿಲ್ಲವಲ್ಲ! ಹಾಗಾಗಿ ನಾವು ಕಂಪ್ಯೂಟರಿಗೆ "ತೋರಿಸಬಯಸುವ" ಪಠ್ಯವನ್ನು ಸ್ಕ್ಯಾನರ್ ಅಥವಾ ಕ್ಯಾಮೆರಾ ಮೂಲಕ ಚಿತ್ರರೂಪಕ್ಕೆ ಪರಿವರ್ತಿಸಿ ಊಡಿಸಬೇಕಾಗುತ್ತದೆ. ಆದರೆ ನಾವು ಊಡಿಸುತ್ತಿರುವ ಚಿತ್ರದಲ್ಲಿ ಪಠ್ಯವಿದೆಯೋ ಹಳೇಬೀಡು ದೇವಸ್ಥಾನದ ಚಿತ್ರವೇ ಇದೆಯೋ ಎನ್ನುವುದು ಕಂಪ್ಯೂಟರಿಗೆ ಅಷ್ಟು ಸುಲಭವಾಗಿ ಅರ್ಥವಾಗುವುದಿಲ್ಲ. ಆ ಚಿತ್ರದಲ್ಲಿ ಇರಬಹುದಾದ ಬರಹವನ್ನು ಗುರುತಿಸುವುದು ಹೇಗೆ, ಗುರುತಿಸಿದ ಚಿತ್ರವನ್ನು ಪಠ್ಯರೂಪಕ್ಕೆ ಬದಲಿಸುವುದು ಹೇಗೆ ಎನ್ನುವುದನ್ನೆಲ್ಲ ಹೇಳಿಕೊಡುವುದು ಓಸಿಆರ್ ತಂತ್ರಾಂಶದ ಕೆಲಸ.

ತಂತ್ರಾಂಶದಲ್ಲಿ ಯಾವೆಲ್ಲ ಅಂಶಗಳನ್ನು (ಉದಾ: ಅಕ್ಷರಗಳ ಆಕಾರ, ಸ್ವರಗಳು ಸಂಯುಕ್ತಾಕ್ಷರವಾಗಿ ಬದಲಾಗುವ ಬಗೆ ಇತ್ಯಾದಿ) ಎಷ್ಟು ನಿಖರವಾಗಿ ದಾಖಲಿಸಲಾಗಿರುತ್ತದೆಯೋ ಓಸಿಆರ್ ತಂತ್ರಾಂಶದ ನಿಖರತೆಯೂ ಅಷ್ಟೇ ಇರುತ್ತದೆ. ಹಾಗಾಗಿಯೇ ಕೆಲವು ಅಲಂಕಾರಿಕ ಅಕ್ಷರಶೈಲಿಗಳನ್ನು ಗುರುತಿಸುವುದು, ಅಸ್ಪಷ್ಟ ಚಿತ್ರಗಳಲ್ಲಿರುವ ಪಠ್ಯವನ್ನು ಗುರುತಿಸುವುದೆಲ್ಲ ಬಹಳಷ್ಟು ಓಸಿಆರ್ ತಂತ್ರಾಂಶಗಳಿಗೆ ಕಷ್ಟದ ಕೆಲಸ. ಹಾಗಾಗಿಯೇ ಸದ್ಯಕ್ಕೆ ಯಾವ ಓಸಿಆರ್ ತಂತ್ರಾಂಶವೂ ಮನುಷ್ಯನ ಕಣ್ಣು - ಮೆದುಳಿನ ಜೋಡಿಗೆ ಸಾಟಿಯಾಗುವ ಮಟ್ಟದಲ್ಲಿಲ್ಲ. ಮುಂದೆ, ಓಸಿಆರ್ ತಂತ್ರಜ್ಞಾನ ಇನ್ನಷ್ಟು ಬೆಳೆದಂತೆ ಈ ಪರಿಸ್ಥಿತಿ ಬದಲಾಗಲಿದೆ ಎನ್ನುವುದಂತೂ ನಿಜವೇ!

ಓಸಿಆರ್ ಏಕೆ ಬೇಕು? ಚಿತ್ರರೂಪದ ಮುದ್ರಿತ ಪಠ್ಯ ಕಂಪ್ಯೂಟರಿಗೆ ಅರ್ಥವಾಗುವ (ಮಶೀನ್ ರೀಡಬಲ್) ರೂಪಕ್ಕೆ ಬದಲಾಗುವುದೆಂದರೆ ಹಲವು ಹೊಸ ಸಾಧ್ಯತೆಗಳು ನಮ್ಮೆದುರು ತೆರೆದುಕೊಂಡಂತೆ. ಎಷ್ಟೋ ವರ್ಷಗಳ ಹಿಂದೆ ಮುದ್ರಿತವಾದ ಪುಸ್ತಕದಲ್ಲಿರುವ ಮಾಹಿತಿಯನ್ನು - ಮತ್ತೆ ಟೈಪ್ ಮಾಡದೆಯೇ - ಕಂಪ್ಯೂಟರ್ ನೆರವಿನಿಂದ ವಿಶ್ಲೇಷಿಸುವುದು, ನಮಗೆ ಬೇಕಾದ ಮಾಹಿತಿಯನ್ನು  ಹುಡುಕಿಕೊಳ್ಳುವುದು (ಸರ್ಚ್), ಮೊಬೈಲ್-ಟ್ಯಾಬ್ಲೆಟ್‌ಗಳಲ್ಲೆಲ್ಲ ಸುಲಭವಾಗಿ ಓದುವಂತೆ ಮಾಡಿಕೊಳ್ಳುವುದು (ಇ-ಬುಕ್) - ಇವೆಲ್ಲ ಓಸಿಆರ್‌ನ ಕೆಲ ಉಪಯೋಗಗಳು. ಅಷ್ಟೇ ಅಲ್ಲ, ಈ ನೆಪದಲ್ಲಿ ಹಳೆಯ ಪುಸ್ತಕಗಳು ಮತ್ತೆ ಎಲ್ಲರಿಗೂ ದೊರಕುವಂತೆ ಮಾಡುವುದು ಕೂಡ ಸಾಧ್ಯವಾಗುತ್ತದೆ.

ಹಳೆಯ ಪುಸ್ತಕ-ಪತ್ರಿಕೆಗಳಷ್ಟೇ ಏಕೆ, ಅಂಚೆ ಕಾಗದಗಳ ವಿಂಗಡಣೆಯಂತಹ (ಸಾರ್ಟಿಂಗ್) ಕೆಲಸಗಳಲ್ಲಿಯೂ ಓಸಿಆರ್ ಬಳಕೆ ಸಾಧ್ಯ. ಒಟ್ಟಿನಲ್ಲಿ ಹೇಳುವುದಾದರೆ ಕಂಪ್ಯೂಟರ್ ಹಾಗೂ ಮಾನವರ ನಡುವಿನ ಸಂವಹನದ ಹೊಸದೊಂದು ಆಯಾಮವನ್ನು ಈ ತಂತ್ರಜ್ಞಾನ ಪರಿಚಯಿಸುತ್ತದೆ.

ಕನ್ನಡದ ಓಸಿಆರ್ ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ ಪುಟಗಳಲ್ಲಿ ಏನು ಮುದ್ರಿತವಾಗಿದೆ ಎಂದು ಗುರುತಿಸುವ, ಹಾಗೂ ಅದನ್ನು ಪಠ್ಯರೂಪಕ್ಕೆ ಬದಲಿಸಿಕೊಡುವ ಓಸಿಆರ್ ತಂತ್ರಾಂಶಗಳು ಕನ್ನಡದಲ್ಲೂ ಇವೆ.

ಇವುಗಳಲ್ಲೊಂದು ಭಾರತೀಯ ವಿಜ್ಞಾನ ಮಂದಿರ ರೂಪಿಸಿರುವ ಓಸಿಆರ್ ತಂತ್ರಾಂಶ. ವೈಯಕ್ತಿಕ ಅಥವಾ ವಾಣಿಜ್ಯೇತರ ಚಟುವಟಿಕೆಗಳಲ್ಲಿ ಬಳಸಲು ಬಯಸುವವರು ಭಾರತೀಯ ವಿಜ್ಞಾನ ಮಂದಿರವನ್ನು ಸಂಪರ್ಕಿಸಿ ಈ ತಂತ್ರಾಂಶವನ್ನು ಪಡೆದುಕೊಳ್ಳಬಹುದು. 'ಐ೨ಓಸಿಆರ್' ಎನ್ನುವ ತಾಣದಲ್ಲೂ ಕನ್ನಡದ ಓಸಿಆರ್ ಸೌಲಭ್ಯ ಇದೆ. ಭಾರತೀಯ ವಿಜ್ಞಾನ ಮಂದಿರದ ಓಸಿಆರ್ ಹೋಲಿಕೆಯಲ್ಲಿ ಇದರ ನಿಖರತೆ ಕಡಿಮೆ; ಆದರೆ ಯಾವುದೇ ತಂತ್ರಾಂಶವನ್ನು ಡೌನ್‌ಲೋಡ್ ಅಥವಾ ಇನ್‌ಸ್ಟಾಲ್ ಮಾಡದೆ ಈ ಸೌಲಭ್ಯವನ್ನು ಬಳಸುವುದು ಸಾಧ್ಯ.

ಇದಲ್ಲದೆ ಬೆಂಗಳೂರಿನ ಕಲೈಡೋ ಸಾಫ್ಟ್‌ವೇರ್ ಸಂಸ್ಥೆ 'ಕನ್‌ಸ್ಕ್ಯಾನ್' ಎಂಬ ಓಸಿಆರ್ ತಂತ್ರಾಂಶವನ್ನು ರೂಪಿಸಿದೆ (ಇದರ ಪ್ರಾಯೋಗಿಕ ಆವೃತ್ತಿ ಉಚಿತವಾಗಿ ಸಿಗುತ್ತದೆ; ದೃಷ್ಟಿ ಸವಾಲು ಎದುರಿಸುತ್ತಿರುವವರಿಗೆ ಪೂರ್ಣ ಆವೃತ್ತಿಯೂ ಉಚಿತವೇ). ಮುಕ್ತ ಓಸಿಆರ್ ತಂತ್ರಾಂಶ 'ಟೆಸೆರಾಕ್ಟ್' ಅನ್ನು ಕನ್ನಡಕ್ಕೆ ತರುವ ಪ್ರಯತ್ನಗಳೂ ನಡೆಯುತ್ತಿವೆ.

ಗೂಗಲ್ ಡ್ರೈವ್ ಬಳಕೆದಾರರು ಕೂಡ ಕನ್ನಡ ಓಸಿಆರ್ ಸೌಲಭ್ಯವನ್ನು ಉಚಿತವಾಗಿ ಬಳಸಬಹುದು. ಕನ್ನಡ ಪಠ್ಯವಿರುವ ಚಿತ್ರವನ್ನು ಡ್ರೈವ್‌ನಲ್ಲಿ ಉಳಿಸಿಟ್ಟು ಗೂಗಲ್ ಡಾಕ್ಸ್ ಮೂಲಕ ತೆರೆದರೆ (ಓಪನ್ ವಿತ್ > ಗೂಗಲ್ ಡಾಕ್ಸ್) ಅದರಲ್ಲಿರುವ ಪಠ್ಯ ಬದಲಾಯಿಸಬಹುದಾದ ರೂಪಕ್ಕೆ ಬಂದುಬಿಡುತ್ತದೆ!

ಗೂಗಲ್ ಡಾಕ್ಸ್‌ನಲ್ಲಿ ಕನ್ನಡ ಓಸಿಆರ್
'OCR Instantly Free' ಎನ್ನುವ ಉಚಿತ ಆಪ್ ಮೂಲಕ ಕನ್ನಡ ಓಸಿಆರ್ ತಂತ್ರಾಂಶ ಆಂಡ್ರಾಯ್ಡ್ ಮೊಬೈಲುಗಳಿಗೂ ಬಂದಿದೆ. ಮೊಬೈಲ್ ಕ್ಯಾಮೆರಾದಲ್ಲಿ ಪುಸ್ತಕದ್ದೋ ಪತ್ರಿಕೆಯದ್ದೋ ಫೋಟೋ ತೆಗೆದು ಅಲ್ಲಿ ಮುದ್ರಿತವಾಗಿರುವುದನ್ನು ಯುನಿಕೋಡ್ ಪಠ್ಯರೂಪಕ್ಕೆ ಬದಲಿಸಿಕೊಳ್ಳುವುದು ಇದು ಸಾಧ್ಯವಾಗಿಸುತ್ತದೆ. ಆದರೆ ಅಕ್ಷರಗಳನ್ನು ಗುರುತಿಸುವ ನಿಖರತೆ ಕಡಿಮೆಯೇ ಎನ್ನಬೇಕು.

ಓಸಿಆರ್ ಬಳಕೆಯಿಂದ ಏನೆಲ್ಲ ಸಾಧ್ಯವಾಗಬಹುದು ಎನ್ನುವುದರ ವಿಶಿಷ್ಟ ಉದಾಹರಣೆ 'ಸಿರಿನುಡಿ' ಜಾಲತಾಣದಲ್ಲಿದೆ. ಕಂಪ್ಯೂಟರಿನ ಕಡತದಲ್ಲೋ ವೆಬ್‌ಪುಟದಲ್ಲೋ ಮಾಡುವಂತೆ ನಮಗೆ ಬೇಕಾದ ಮಾಹಿತಿಯನ್ನು ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ ಪುಟಗಳಲ್ಲೂ ಹುಡುಕಿಕೊಳ್ಳುವ ಉದಾಹರಣೆಯನ್ನು ನಾವು ಇಲ್ಲಿ ನೋಡಬಹುದು. ಈ ತಾಣದಲ್ಲಿರುವ 'ಅಖಿಲ ಭಾರತ ಪತ್ರಿಕೆ'ಯ ಸಂಚಿಕೆಗಳಲ್ಲಿ (ಮುದ್ರಿತ ಸಂಚಿಕೆಯ ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ ರೂಪ) ನಾವು ನಮಗೆ ಬೇಕಾದ ಮಾಹಿತಿಯನ್ನು ಹುಡುಕಿಕೊಳ್ಳುವುದು ಸಾಧ್ಯ.

ಬ್ರೈಲ್ ರೂಪದಲ್ಲಿ ದೊರಕದ ಪುಸ್ತಕಗಳನ್ನು ದೃಷ್ಟಿ ಸವಾಲು ಎದುರಿಸುತ್ತಿರುವ ವ್ಯಕ್ತಿಗಳಿಗೆ ತಲುಪಿಸುವಲ್ಲೂ ಓಸಿಆರ್ ಪಾತ್ರ ಮಹತ್ವದ್ದು. ಅಂತಹ ಪುಸ್ತಕಗಳನ್ನು ಸ್ಕ್ಯಾನ್ ಮಾಡಿ, ಓಸಿಆರ್ ಸಹಾಯದಿಂದ ಪಠ್ಯರೂಪಕ್ಕೆ ಪರಿವರ್ತಿಸಿಕೊಂಡು ಆನಂತರ 'ಈ-ಸ್ಪೀಕ್'ನಂತಹ ತಂತ್ರಾಂಶಗಳನ್ನು ಬಳಸಿ ಕೇಳುವುದು ಸಾಧ್ಯವಾಗುತ್ತದೆ.

ಜನವರಿ ೨೦೧೬ರ 'ತುಷಾರ'ದಲ್ಲಿ ಪ್ರಕಟವಾಗಿರುವ ಲೇಖನ

3 ಕಾಮೆಂಟ್‌ಗಳು:

kadatagalu ಹೇಳಿದರು...

ಟೆಸೆರ್ಯಾಕ್ಟ್‌ ಬಗ್ಗೆಯೂ ಬರೆಯಿರಿ. ಅದು ಒಂದು ಎಲ್ಲ ಭಾಷೆಗಳ ಓ.ಸಿ.ಆರ್ ತತ್ರಾಂಶ

ವಿ.ರಾ.ಹೆ. ಹೇಳಿದರು...

i2ocr ತಾಣದ ಕೊಂಡಿ This webpage is not available ಎನ್ನುತ್ತಿದೆಯಲ್ಲ!

ವಿ.ರಾ.ಹೆ. ಹೇಳಿದರು...

i2ocr ತಾಣ ಈಗ ಓಪನ್ ಆಗುತ್ತಿದೆ ;)

badge