|
From: Arjuna R. C. <arj...@gm...> - 2012-12-28 09:34:13
|
---------- ఫార్వర్డ్ చేసిన సందేశం ---------- పంపినవారు: Arjuna Rao Chavala <arj...@gm...> తేది: 28 డిసెంబర్ 2012 3:00 సా సబ్జెక్టు: Re: [సంగణన] Training Data needed for OCR వీరికి: tel...@go... ఆంధ్రుల చరిత్రము - ప్రథమ భాగము<http://te.wikisource.org/wiki/%E0%B0%B8%E0%B1%82%E0%B0%9A%E0%B0%BF%E0%B0%95:Andhrula_Charitramu_Part-1.pdf>నుండి సృష్టించిన దాదాపుగా 125 పాఠ్యపేజీలు మరియు 25 అనుబంధపేజీల స్కాన్ బొమ్మల మరియు వాటి యూనికోడ్ పాఠ్య దత్తాంశం తెలుగు వికీసోర్స్ లో స్వచ్ఛంద కార్యకర్తల కృషి వల్ల అందుబాటులోకి వచ్చింది. దీని పరిమాణం బొమ్మలరూపంలో 26910మెగాబైట్లు (పేజీ 179.4కిబై జెపెగ్ రూపంలో) పాఠ్యరూపంలో 0.555 మెగాబైట్లు(పేజీ 3.7కిబై) వుంది. అనగా పాఠ్యీకరణ పరిమాణాన్ని దాదాపు50 వంతుకు కుదించటంతో పాటు ఎటువంటి గణనపరికరంపైన సమాచారాన్ని చదవకలిగేస్థితికి తీసుకొస్తుంది. దీనిని ఉపయోగించి తెలుగు ఒసిఆర్ సాఫ్ట్వేరు అభివృద్ధిపరచి తెవికీ సోర్స్ కు అనుబంధముచేసినచో, పాఠ్యీకరణ చురుకుగా జరుగటానికి మరియు సాఫ్టవేరు ని మరింత అభివృద్ధిచేయడానికి ఉపయోగపడుతుంది. ఏమైనా సందేహాలుంటే అడగండి. ధన్యవాదాలు అర్జున 25 డిసెంబర్ 2012 12:18 ఉ న, <dh...@gm...> ఇలా రాసారు : Hi, > > Did you get any data for training tesseract for telugu? > I'm also interested in working with tesseract for telugu OCR. > Let me know. > > Thanks, > dharvi > > On Saturday, July 21, 2012 12:17:38 PM UTC+5:30, arjun wrote: >> >> >> >> 2012/7/21 రాకేశ్వర రావు <ra...@gm...> >> >> తెలుఁగు OCR కి ట్రెయినింగు ఇవ్వడానికి మాంచి real-world data కావాలి। >>> >>> నా దృష్టిలో ఏమివుందంటే, ఏ ఆంధ్రమహాభారతమో, అంత లేకున్న కనీసం భగవద్గీత >>> (పుస్తకం ఏదైనా పర్వాలేదు) వంటిదో తీసుకొని, దాని యొక్క స్కాను చేయబడ్డ పుస్తక >>> రూపమూ, యూనీకోడు గద్యరూపమూ ఇవ్వగలగితే, ఏ అక్షరం ఎక్కడుందో నేను నా సాఫ్టువేరు >>> వాడి జత చేసుకోగలను। >>> >>> వచ్చిన ఇబ్బంది, నా దగ్గర ఆంధ్రమహాభారతం యూనీకోడు వుంది, ఆది పర్వం స్కాను >>> కూడా వుంది, కానీ స్కాను క్వాలిటీ అంత బాగాలేదు। కాబట్టి వేఱు పుస్తకం కోసం >>> వెదుకుతున్నాను। మీ దగ్గర ఒక చిన్న సైజు పుస్తకం మంచి అచ్చుతో వున్నది। ఉదాహరణ >>> అతికించాను చూడండి। దానికి తోడు యూనీకోడు వుంటే నాకు తెలుపగలరు। >>> >>> ఇది కొద్దిగా వేంటనే కావాలి। మా ప్రొఫసరు ఆరాట పడుతున్నారు। >>> >>> తెలుగు వికీ సోర్స్ లో ఆంధ్రుల చరిత్రము పాఠ్యీకరణ జరుగుతున్నది. >> అదిఉపయోగపడవచ్చు. >> >> అర్జున >> >> -- > For more options, visit "తెలుగు సంగణన (telugu-computing)" group at > http://groups.google.com/group/telugu-computing?hl=te > |