《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 業界動態 > 專訪 | Recurrent AI:呼叫系統的「變廢為寶」

專訪 | Recurrent AI:呼叫系統的「變廢為寶」

2018-11-28
關鍵詞: 自然語言 DealTape AI

自然語言處理是一個龐大的領域,比如普通文本與對話就是兩個不同的領域,對話領域里,任務型對話又不同于閑聊型對話,問答式對話又不同于協作型對話……


因此,自然語言處理領域的玩家們,除了要思考模型的效果、產品的架構,更要思考一個最為本質的問題:要處理什么數據?為什么要處理這類數據?


Recurrent AI 選擇了「呼叫系統」。


「電話錄音可追溯而不可作假,這讓呼叫系統成為了一個不可篡改的精準用戶畫像來源。同時坐席與客戶的全部溝通過程也完整保留在電話錄音中,這意味著影響成單率的全部因素都在錄音之中,只要你能準確地把它們提取出來。」CTO 張宇韜說。


如何選擇提取哪些信息?如何分步進行提取?近日,機器之心前往 Recurrent AI(睿科倫),與 CEO 陳麒聰、CTO 張宇韜、首席科學家楊植麟進行了深入的對話。他們講述了一個用語音識別、語義理解和數據挖掘,把呼叫系統「變廢為寶」的故事。


機器之心Synced語音識別小程序


機器之心:能否介紹一下 DealTape(交易磁帶)智能呼叫系統?


我們的產品是一個優化溝通的 AI,希望能夠從統計分析的角度幫助人們去分析,在不同的商業背景下,哪些話術產生了積極的影響,哪些產生了消極的影響。想要實現這一點,就首先需要語音識別和自然語言處理技術,把聲音轉換成由標簽組成的向量,因此這也是我們的技術棧的主要構成部分。


我們最先切入的行業是那些會使用呼叫系統的行業。購買呼叫系統說明他們對監督坐席與客戶溝通的過程是有強需求的。然而過去囿于技術,大部分錄音只能靠人工重聽或者棄置。而我們的系統可以節省 90% 以上聽錄音的時間,讓坐席和管理者都能夠直接發現溝通中的問題、直接進行有針對性的優化。


機器之心:為什么選擇做智能呼叫系統?


我們幾位創始人的背景集中在 NLP 與數據挖掘領域。最開始我們是從聊天機器人開始進行業務上的探索的。然而一段時間之后,我們逐漸認識到,聊天機器人在商業邏輯上有一些不通暢的地方:一方面,現在的任務型聊天機器人仍然需要非常深度的定制,換言之成本十分高昂,另一方面,它對于大多數公司仍然是一樣「nice to have」的東西,大家的支付意愿也不是特別高。


因此,我們就在思考,做一些技術棧更深一點的東西。與其說創造對話,不如對已有對話進行分析。而對話數據最多的地方就是呼叫中心。


呼叫中心的用戶花了大量成本進行錄音,但是卻沒有利用它獲得任何價值。電話錄音可追溯而不可作假,這讓呼叫系統成為了一個不可篡改的精準用戶畫像來源。同時坐席與客戶的全部溝通過程也完整保留在電話錄音中,這意味著影響成單率的全部因素都在錄音之中,只要你能準確地把它們提取出來。


所以我們就在思考,如何能把利用這些數據提高企業的價值。


機器之心:DealTape 能夠滿足哪些需求?


兩個典型的需求是培訓和實時座席輔助。

 

一方面是找到各種話術與成單率之間的關系,幫助管理者可視化座席問題在哪里,然后通過個性化提示讓坐席學習容易成單的話術,能夠提高他們的銷售水平。

 

另一類是自動填寫客戶畫像,節省銷售記錄的時間,可以聯系更多的客戶 , 以及實時根據客戶問題推送來自銷冠的優秀回復案例。


另一類是把客戶畫像抽取出來,分析其分布,不同類型客戶的流失率、成單率等,是一個數據來源詳實的商業分析工具。


機器之心:DealTape 服務于哪些行業?對不同行業的系統進行什么程度的定制?


會購買呼叫系統的企業都是我們的潛在用戶。我們現在比較集中的行業是金融,教育和 B2B。這些行業的很多基本情況非常類似:沒有一家獨斷的壟斷龍頭公司,而是有非常多中等規模的企業,同時都可以支付得起呼叫系統和相關服務。因此在這些領域內,DealTape 既有可擴展性,也能夠進行一些定制。

 

針對每個不同的行業,我們都對語音和語義模型進行了定制化。

 

這是因為,同樣是呼叫系統,不同行業的使用方式差別會很大,最后音頻中的信息分布、信息量以及內容差異也非常大。例如保險銷售需要在電話里和客戶確認非常多個人信息,一通電話可能長達一小時。而信貸行業去銷售的時候,只需要詢問對方房產,社保等資質再加微信邀約就可以結束了,一個電話平均只要幾分鐘。


機器之心:從模型角度看,DealTape 智能呼叫系統可以分成幾部分?


我們的整個技術棧可以分為三層:


第一層是語音識別層,主要解決的是如何把呼叫系統里一段短則幾分鐘,長則幾小時的電話錄音轉換為機器可以處理的雙軌文字記錄。

 

第二層是語義理解,通過一系列的文本分類模型,為文本中體現坐席與客戶特點的句子打上標簽,并為對話雙方建立「畫像」。

 

第三層是數據挖掘層,計算不同的標簽與成單率之間的關系,將結果用于培訓、實時座席輔助等不同目標。

微信圖片_20181128203249.jpg

圖:坐席的「話術點」標簽類別


機器之心:語音識別層和語義理解層分別包括哪些模塊?進行哪些任務?


語音識別層首先通過把人聲段落和背景噪音段落分開的形式把長錄音斷句,進一步根據聲紋信息區分不同說話人身份,并判斷哪一方是銷售坐席,哪一方是客戶。這個階段解決的是「誰在說話」以及「在什么時候說話」。最后,才對每一句話(utterance)進行語音識別。


語義理解層的目的是把自然語言結構化,最后給出一系列關于坐席和客戶的標簽,我們稱之為「畫像」。


常見的針對坐席的標簽包括「是不是加了微信」,「是不是約了下次見面」等 KPI 衡量指標。而常見的客戶標簽則會根據行業的不同而產生比較大的差異。例如,在金融信貸領域,「是否有社保」、「是否有房產」,就是一些重要的二值標簽。標簽的數量從幾個到幾十個不等,隨著新用戶逐漸加入,需求逐漸增多,我們也在不斷擴充自己的標簽體系。

微信圖片_20181128203332.jpg

圖:保險行業的「保險責任 1」標簽對應的語句樣例


機器之心:數據挖掘層如何利用上兩層給出的信息?


數據挖掘層像是一個商業智能(BI)工具包。

 

在這一層,我們會對所有標簽與成單率之間的關系建模,找到那些與成單率負相關程度最高的、波及客戶最多的因素,將它們視為目前坐席需要解決的首要問題。

 

同時,我們會分析具有這些因素反而成單的案例,例如「被連續拒絕反而成單」的案例,「被競品先入為主反而成單」的案例,分析究竟哪些話術起了作用促成了成單,找出銷售打動客戶的原因。

 

對于銷售坐席來說,我們可以利用分析結果進行有針對性的話術培訓。我們可以根據某一位坐席的數據進行回歸分析,再把報表推送給他:通過數據分析,我們發現,從用戶角度,你在遇到某種情況的客戶時成單率最低,從個人角度,你的某一環節最為薄弱,然后推送和他情況類似的成單案例,對他進行有針對性的話術培訓。

 

對于管理者來說,我們可以給出管理建議:例如,一位坐席同時維護多少個客戶的時候,成單率最高;又如,哪些話術能夠最有效地促進成單。

 

另外,我們也可以通過上一層的語義理解,進行類似「網站埋點」,監督坐席是不是按要求完成了工作,例如是不是推廣了小程序。


機器之心:語音識別層的核心技術要點有哪些?


眾所周知,語音識別模型除了需要聲學模型還需要語言模型。


如果沒有語言模型,單純用聲學模型進行識別,文字會出現漏字、同音字錯誤識別等可讀性問題。因此我們需要一個語言模型在解碼過程中對聲學模型定向搜索過的結果進行一次重排序。


經典的語言模型做法是采用 n-gram 統計模型、但 n-gram 模型存在幾個問題,一是因為參數非常多,所以容易過擬合;二是即使在 n 取值非常小的時候,例如 3-gram,仍然會發生參數爆炸。后來有了基于神經網絡的語言模型,把每個詞,或者每個詞的分布變成一個嵌入碼(embedding), 然后用 RNN 模型來刻畫句子的上下文。這一做法的局限性在于,無論如何設計模型結構,最后都要通過 softmax 進行輸出,模型的表現力就被嵌入碼的規模所限制了。


因此我們在語言模型中引入了「softmax 混合體」概念,相當于將若干個 softmax 解碼器做成了一個混合模型,克服了基于神經網絡的語言模型的表現力限制性,在多個語言建模標準數據集上獲得復雜度(perplexity)的大幅提升,例如在 1B Word 數據集上就提高了 5.6%。這篇文章入選了 ICLR 2018 oral,是前段時間影響力比較好的一個工作。


機器之心:訓練語音模型需要進行什么規模的標注工作?


在冷啟動階段,我們對接了兩家不同行業的客戶,分別來自信貸領域和 B2B 銷售,我們從他們的數據庫中提取數據,進行了數百個小時的人工標注,然后利用這部分數據訓練處了一個基本可用的基線模型,用于后續的數據標注。有了基線模型之后,新的未標注數據首先通過基線模型進行預識別,再交給標注員做精細標注,這樣成本就大大降低了。同時,基線模型的訓練集也在不斷擴充,現在我們最新的基線模型訓練集規模已經達到數千個小時。


至于生產階段,每個行業都有一個專屬的語音識別模型,如果用戶所在行業是我們之前沒有接觸過的,那么我們需要大量標注數據從頭訓練;如果我們之前做過相關行業,那么標注的目的只是適配一下特定公司的數據特點,這時只需要進行「輕標注」,標注量大概是新行業的十分之一。


機器之心:目前市面上已經有許多公司將語音識別視作一項基礎能力模塊,對外提供相對比較成熟的技術服務。為什么 Recurrent AI 仍然選擇「自己造輪子」?而不是調用其他 API?


我們嘗試過用通用的語音識別引擎去識別電話錄音,識別的結果并不足以支撐上層的語義處理任務。這是我們「重造輪子」的主要原因。通用語音識別引擎的識別結果會丟掉很多關鍵信息,例如一些實體的名稱,像公司名稱和產品名稱之類的,這是用戶最關心的一部分內容,但是反而不能被正確識別。我們甚至嘗試過用一些規則修改通用識別引擎的識別結果,比如用戶的企業名稱是「百姓網」,經常被識別成「百姓好」,那么我們可以制定規則把所有的「百姓好」修改成「百姓網」。但是識別模型是不可控的,可能的錯誤方式有太多了。


另外,從「造輪子」的可行性角度,雖然我們公司創始成員的主要背景是自然語言處理和數據挖掘,但是深度學習這類端到端的算法在不同領域之內有相通之處,而且它大大降低了語音識別的門檻——比如說標注精度就從原來的需要「逐字校準」變成了給出每句的對應文本即可,這就是一個成本和精力上可控的任務了。


機器之心:數據挖掘層的核心技術要點有哪些?


數據挖掘的難點就在于如何結合所有的特征去預測。我們一般從三個層面來考慮這個問題,一是特征工程(feature engineering),二是模型,三是模型的結合(ensemble)。模型層面需要考慮的問題比較少,用分類器解決預測問題已經成為定式,xgboost 等工具已經非常成熟了。所以我們考慮的主要是,第一,怎么樣去定義更有效的特征;第二,怎么樣去做特征的交叉與結合,使得其表達能力和泛化能力更強;第三,在最后模型結合、調參的層面,把利用不同特征訓練出來的模型進行結合。


機器之心:各個行業的「標簽」是如何確定的?


每個行業的標簽都有所不同,標簽是和我們的用戶逐步溝通出來的。


用戶公司的運營人員會和產品溝通,提供一小部分音頻。我們的運營人員在聽過錄音之后會幫助他們進行設計,而用戶也會給出很多需求。


有一些標簽能明顯地體現出用戶的商業邏輯。比如說,在一個競價排名銷售的場景里,用戶就要求系統能夠區分出「不想花錢」、「價格異議」和「問優惠」。在用戶看來,「不想花錢」指代的是完全不想付費、想要免費使用的客戶。「價格異議」是一個更為積極的信號,表示客戶有支付意愿,只是覺得價格太貴。而會「問優惠」的客戶則更為主動,信號更為積極。


機器之心:行業內存在哪些競品嗎?


在美國,公司使用呼叫系統的歷史遠比國內悠久,普及情況也遠勝于國內,因此有一些類似的產品。例如有一家名為 Chorus 的公司,還有 Gong.io (http://gong.io/) 都是針對銷售領域的智能對話系統公司,但它們針對的對象通常是視頻 demo,在國內,這一類場景還比較少。


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 欧美日韩一区二区在线视频 | 在线观看视频色 | 国产1区二区 | 中文在线亚洲 | 国产成人综合一区精品 | 黄色欧美在线观看 | 一道本在线视频 | 99色吧| 欧美国产日本精品一区二区三区 | 在线亚洲欧洲国产综合444 | 在线观看黄a大片爽爽影院免费 | 欧美成人精品欧美一级乱黄 | 日本乱人伦片中文三区 | 亚洲特一级毛片 | 在线一级黄色片 | 2345成人高清毛片 | 久久久7777888精品 | 日韩精品免费观看 | 2020天天干| 欧美一级高清视频在线播放 | 成人免费ā片 | 欧美日韩高清在线观看 | 天天摸天天躁天天添天天爽 | 亚洲国产精品日韩在线观看 | 日韩在线观看中文字幕 | 九九精品免视看国产成人 | 午夜精品久久久久久久久 | 中国一级特黄特级毛片 | 久久午夜夜伦鲁鲁片不卡 | 久久高清一级毛片 | 日韩伦理片在线播放 | 精品视频久久 | 欧美性精品videofree | 先锋悠悠xfplay色资源网站 | 日日草视频 | 欧美日韩你懂的 | 中文有码中文字幕免费视频 | 亚洲综合久久一本伊伊区 | 亚洲日批视频 | 亚洲国产精品91 | 欧美一级高清视频在线播放 |