新酷產(chǎn)品第一時間免費(fèi)試玩,還有眾多優(yōu)質(zhì)達(dá)人分享獨(dú)到生活經(jīng)驗(yàn),快來眾測,體驗(yàn)各領(lǐng)域最前沿、最有趣、最好玩的產(chǎn)品吧~!下載客戶端還能獲得專享福利哦!
不管你有沒有聽過,OCR 技術(shù)已經(jīng)滲入到我們生活中的方方面面。
不妨回想一下,汽車出入停車場時的車牌識別、金融業(yè)務(wù)開戶時的銀行卡識別、身份證識別、甚至是很多商務(wù)應(yīng)用中的名片識別等,其實(shí)都是基于 OCR 技術(shù)的。

OCR 的發(fā)展可以追溯到 70 年代初,在數(shù)十年的發(fā)展中,OCR 的識別速度和識別成功率在不斷地提高,應(yīng)用場景也在不斷地拓展。
從復(fù)雜背景中提取出文字、多種混合字體識別、低分辨率圖像中識別、多語言混合是被、錯行識別甚至是復(fù)雜多行板式識別等對于現(xiàn)今的 OCR 技術(shù)來說其實(shí)都已經(jīng)不算什么問題。
但發(fā)展到現(xiàn)在,對于 OCR 技術(shù)來說依舊有一個瓶頸沒有突破,那就是彎曲文字。
什么是彎曲文字?
像這樣,

這樣,

還有這樣的。

實(shí)際上,Captcha reCAPTCHA,也就是你登錄網(wǎng)站常常輸入錯的歪歪扭扭的文字驗(yàn)證碼,也是基于 OCR 的這個弱點(diǎn),來防止被攻擊的。

過去的 OCR 大多是解決水平文字的檢測或者傾斜文字的檢測,但其實(shí)像上圖的彎曲在生活中十分常見。
近日,亞馬遜的研究人員就開發(fā)出了一項(xiàng)名為‘TextTubes’來 OCR 識別算法來解決這個問題。
簡單來說,該算法首先會對目標(biāo)圖像進(jìn)行建模,建立一個曲線函數(shù),然后再分析出出半徑以及中間軸,繼而生成一個文本選取分區(qū)。

效果怎么樣?
論文展示了三種不同 OCR 技術(shù)針對同一個含有彎曲字體的廣告牌的識別效果。

結(jié)果顯示,(b)和(c)會出現(xiàn)識別框重復(fù)的現(xiàn)象,(b)當(dāng)中還出現(xiàn)了彎曲識別框未能完全覆蓋文字的情況。
這樣會帶來什么結(jié)果呢,一就是會出現(xiàn)導(dǎo)出的文字結(jié)果會有重復(fù),而二就是會導(dǎo)致識別結(jié)果錯誤。
至于 TextTubes 所識別出來的效果則很完美地對廣告牌上的每一個文字區(qū)域進(jìn)行分區(qū),既不會出現(xiàn)重疊區(qū)域,而每一個分區(qū)也都很好地覆蓋所有文字。
為了更好地測試 TextTubes 的性能,亞馬遜在 CTW- 1500 以及Total-Text 兩個訓(xùn)練系統(tǒng)上進(jìn)行評估。當(dāng)中CTW- 1500 含有 1500 張圖像、超過 10000 個文本實(shí)體,每張圖像至少還有一個彎曲文本,而Total-Text 則共有 1255 個訓(xùn)練圖像、300 個測試圖像,每張圖片也是含有一個或多個彎曲文本。

那么成績?nèi)绾??TextTubes 在兩個測試中都獲得了優(yōu)秀的成績,在 CTW- 1500 則更為突出,準(zhǔn)確率為 83.65%,相比之下,排第二名的那位學(xué)生,準(zhǔn)確率只有 75.6%。
亞馬遜表示,當(dāng) TextTubes 正式投入使用之后,對于那些高度依賴 OCR 技術(shù)展開業(yè)務(wù)的企業(yè)來說,是一個福音。根據(jù) Grand View Research 的數(shù)據(jù),市場對于 OCR 的需求仍在不斷增大,預(yù)計到 2025 年 OCR 解決方案市場規(guī)模將達(dá)到 133.8 億美元。
等等,不是說文字驗(yàn)證碼是基于 OCR 的這個弱點(diǎn)的嗎?如果突破了,驗(yàn)證碼還安全嗎?

這不所以推出了從一堆劉翔中找出王自如的驗(yàn)證碼嗎?