電話機(jī)器人是一種由人工創(chuàng)建的模擬人與計算機(jī)進(jìn)行自然語言交流的軟件。當(dāng)你撥打電話時,機(jī)器人就會在電話里與你對話。它通過獲取你所輸入的關(guān)鍵詞,用客服機(jī)器人所特有的算法來自動回復(fù)你的問題。
除了能代替人工撥打電話,還可以代替人工進(jìn)行業(yè)務(wù)咨詢、產(chǎn)品推薦、日常服務(wù)等。雖然電話機(jī)器人已經(jīng)有了很大進(jìn)步,但是語音識別還是不夠精確,機(jī)器人回復(fù)時經(jīng)常出現(xiàn)卡頓或不完整等問題。下面就讓我們一起來了解一下,自然語言處理在電話機(jī)器人中的應(yīng)用。
語義理解
語義理解是電話機(jī)器人的核心功能之一,也是電話機(jī)器人的難點(diǎn)所在。語義理解主要指通過語義分析,從自然語言中抽取出語義相關(guān)的信息,并進(jìn)行處理,最終生成用戶需要的回答。這種處理主要分為以下三個方面:
語義理解主要包括分詞、詞性標(biāo)注、語法分析和句法分析等。由于電話機(jī)器人中對話量較大,為了提升識別率,必須使用最合適的分詞和詞性標(biāo)注,比如把句子中的每個單詞都切分出來進(jìn)行分析;語法分析主要是分析句子結(jié)構(gòu)并完成相應(yīng)的處理;句法分析就是對句子中各成分之間的關(guān)系進(jìn)行識別。這三種方法都可以使用,但最常用的還是前兩種方法。
分詞和詞性標(biāo)注是從詞匯的不同角度進(jìn)行的自然語言處理,而句法分析則是從句子整體角度進(jìn)行自然語言處理。通過將句子中各個成分分離出來,可以對句子進(jìn)行句法分析和語義分析,得到句子結(jié)構(gòu)和各成分之間的關(guān)系。句法分析包括詞性標(biāo)注和句法成分分析;而語義分析則是從句子整體角度進(jìn)行自然語言處理。
目前電話機(jī)器人應(yīng)用較多的是第二種方法,即語義識別。在語義識別中主要使用到分詞技術(shù)和句法結(jié)構(gòu)劃分技術(shù),比如在對文本進(jìn)行分詞時,要對詞語按照詞性結(jié)構(gòu)劃分成不同的片段;在對句子進(jìn)行句法結(jié)構(gòu)劃分時,要對句子中的每一個成分進(jìn)行劃分。
詞語提取
詞語提取就是根據(jù)文本中的某一個詞語或一個句子,提取出其所屬的類型(如名詞、動詞、形容詞等)以及語意,并根據(jù)不同的語義對這些詞進(jìn)行歸類。在詞語提取的過程中,還可以利用語義分析等手段,幫助提取出更多的信息,使分類更加準(zhǔn)確。
分類就是根據(jù)文本中所包含的內(nèi)容,對文本進(jìn)行歸類。在分類過程中,可以根據(jù)不同的分類標(biāo)準(zhǔn)將文本劃分成不同的類別。常見的分類標(biāo)準(zhǔn)有:
按語法結(jié)構(gòu)分:可以將句子劃分為主語、賓語等。
按語義關(guān)系分:可以將句子劃分為語義關(guān)系明確,有具體語義聯(lián)系的語句和沒有具體語義聯(lián)系的語句。
在進(jìn)行分類時,一般先對每個類別里的每個句子進(jìn)行初步判斷,然后根據(jù)句子中包含的信息,進(jìn)行判斷和分類。
情感分析
情感分析是從自然語言中提取用戶對某一事物的情感,并以此對用戶進(jìn)行分類的過程。情感分析的目的是識別用戶對于特定文本(例如,電子郵件、新聞文章或社交媒體帖子)中的情感態(tài)度。
隨著技術(shù)的發(fā)展,人們對語言理解的深度不斷提高,語音識別技術(shù)已經(jīng)能夠識別人類發(fā)音中的語氣語調(diào)等細(xì)節(jié)信息,然而對于情感分析而言,這還遠(yuǎn)遠(yuǎn)不夠。文本分類、語義分析、以及詞匯預(yù)測等技術(shù)已被應(yīng)用于自然語言處理領(lǐng)域中。
隨著人工智能技術(shù)的不斷發(fā)展以及機(jī)器學(xué)習(xí)算法在自然語言處理中的應(yīng)用越來越廣泛,我們相信,電話機(jī)器人在未來一定能替代人工完成大量繁瑣、重復(fù)性工作,提高工作效率。
關(guān)鍵詞提取
關(guān)鍵詞提取是自然語言處理中的重要步驟,也是自然語言處理的難點(diǎn)之一。當(dāng)用戶在電話里輸入一個關(guān)鍵詞時,需要識別它并把它轉(zhuǎn)換為文字。文本中的每個字都必須與其所對應(yīng)的關(guān)鍵詞相匹配。通常情況下,自然語言處理會使用兩種方法來提取關(guān)鍵詞:
(1)基于詞典的方法通過將每個字映射到一個向量空間,然后再將向量空間中的每個點(diǎn)映射到一個向量空間,并計算出每個向量的向量和。在這個過程中,需要考慮文本中出現(xiàn)的詞匯的順序以及詞匯之間的關(guān)系。
(2)基于統(tǒng)計方法:通過統(tǒng)計文本中出現(xiàn)頻次最高或出現(xiàn)頻次最多的詞來提取關(guān)鍵詞。
此外,還有一種方法是基于文本生成技術(shù),比如文本聚類技術(shù)。文本聚類是將給定輸入文本分成組后進(jìn)行分類的過程,以確定每組中的類別。
(文章轉(zhuǎn)載于天潤融通)