DoNews7月13日消息(記者 翟繼茹)13日,記者從創(chuàng)新工場獲悉,其最新提出了中文分詞和詞性標注模型,可將外部知識(信息)融入分詞及詞性標注模型,剔除了分詞“噪音”誤導,提升了分詞及詞性標注效果。
在NLP中,中文分詞和詞性標注是中文自然語言處理的兩個基本任務,尤其在工業(yè)場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
創(chuàng)新工場方面解釋,中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由于中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,“部分居民生活水平”,其正確的切分應為“部分/居民/生活/水平”,但存在“分居”、“民生”等歧義詞?!八麖男W電腦技術(shù)”,正確的分詞是:他/從小/學/電腦技術(shù),但也存在“小學”這種歧義詞。
二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經(jīng)濟、醫(yī)療、科技等科學領域的專業(yè)術(shù)語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。
因此,在“鍵-值記憶神經(jīng)網(wǎng)絡的中文分詞模型”的模型中,利用n元組(即一個由連續(xù)n個字組成的序列,比如“居民”是一個2元組,“生活水平”是一個4元組)提供的每個字的構(gòu)詞能力,通過加(降)權(quán)重實現(xiàn)特定語境下的歧義消解。并通過非監(jiān)督方法構(gòu)建詞表,實現(xiàn)對特定領域的未標注文本的利用,進而提升對未登錄詞的識別。
在算法實驗中,該模型在5個數(shù)據(jù)集(MSR、PKU、AS、CityU、CTB6)上的表現(xiàn),均刷新歷史成績。
創(chuàng)新工場大灣區(qū)人工智能研究院執(zhí)行院長宋彥表示,與前人的模型進行比較發(fā)現(xiàn),該模型在所有數(shù)據(jù)集上的表現(xiàn)均超過了之前的工作,“把中文分詞領域廣泛使用的標準數(shù)據(jù)集上的性能全部刷到了新高?!?br/>
在基于雙通道注意力機制的分詞及詞性標注模型中,將中文分詞和詞性標注視作聯(lián)合任務,可一體化完成。模型分別對自動獲取的上下文特征和句法知識加權(quán),預測每個字的分詞和詞性標簽,不同的上下文特征和句法知識在各自所屬的注意力通道內(nèi)進行比較、加權(quán),從而識別特定語境下不同上下文特征和句法知識的貢獻,從而降低了“噪音”。
創(chuàng)新工場介紹,在和斯坦福大學的 CoreNLP 工具的相比中,該模型有近10個百分點的提升。
在場景應用上,創(chuàng)新工場主要希望解決工業(yè)場景的突破,宋彥表示,“在工業(yè)場景使用的時候,跨領域的模型能力是一個非常直接的訴求。”創(chuàng)新工場介紹,“鍵-值記憶神經(jīng)網(wǎng)絡的中文分詞模型”和“基于雙通道注意力機制的分詞及詞性標注模型”兩篇文章,已經(jīng)入選自然語言處理領域(NLP)頂級學術(shù)會議 ACL 2020。(完)