剖析騰訊知文,智能問答機(jī)器人路在何方?

 機(jī)氣林智能科技2019提供自動(dòng)化零件,工控產(chǎn)品,工業(yè)機(jī)器人,以及機(jī)器人零部件。

  機(jī)氣林智能科技有話說:

 

AI 前線導(dǎo)讀:近年來,智能機(jī)器人客服已經(jīng)在各行各業(yè)發(fā)揮作用,替代人類更有效率地處理繁雜的事務(wù)。但是,不可否認(rèn)的是,目前市面上大多數(shù)智能客服并不能完美滿足用戶的需求,如難以處理未經(jīng)過訓(xùn)練的場景問題,無法理解復(fù)雜的人類語言結(jié)構(gòu)等。在技術(shù)和商業(yè)化應(yīng)用上,智能客服背后的 NLP 和語音技術(shù)雖然已經(jīng)取得了很多進(jìn)步,近年來卻鮮有突破性進(jìn)展,成功的商業(yè)化應(yīng)用仍然屈指可數(shù)。如今,NLP 和語音技術(shù)在商業(yè)化應(yīng)用上遇到了哪些瓶頸?為何遲遲沒有大的進(jìn)步?解決問題的關(guān)鍵在于哪里?或許我們可以通過智能對話機(jī)器人的典型代表——騰訊知文問答系統(tǒng),發(fā)掘當(dāng)前智能對話機(jī)器人破解行業(yè)應(yīng)用難題的答案。

更多干貨內(nèi)容請關(guān)注微信公眾號“AI 前線”(ID:ai-front)

知文背后的團(tuán)隊(duì)

經(jīng)過騰訊最近一次組織架構(gòu)大調(diào)整之后,知文團(tuán)隊(duì)從原來的 SNG 事業(yè)群歸入了新成立的云與智慧產(chǎn)業(yè)事業(yè)群(CSIG),但服務(wù)和支持的相關(guān)產(chǎn)品和業(yè)務(wù)不變,包括騰訊云、QQ、QQ 空間等。這一團(tuán)隊(duì)目前的研究重心,也依然放在自然語言智能交互,圍繞智能交互的內(nèi)涵和外延,學(xué)術(shù)研究則包括但不限于問答、對話系統(tǒng)、文本摘要、知識(shí)圖譜、機(jī)器閱讀理解等。

作為知文團(tuán)隊(duì)的技術(shù)負(fù)責(zé)人,鐘黎主導(dǎo)了知文智能問答平臺(tái)、知文 NLP 平臺(tái)以及知文內(nèi)容理解產(chǎn)品的研發(fā)工作。在此之前,他曾負(fù)責(zé)騰訊社交網(wǎng)絡(luò)的文本分析與語義挖掘,為眾多相關(guān)產(chǎn)品和業(yè)務(wù)提供語義分析能力。他擁有豐富的大規(guī)模機(jī)器學(xué)習(xí)應(yīng)用經(jīng)驗(yàn),曾經(jīng)在微軟、PayPal、SoftBank AI Lab、IBM Research 等公司任職,并參與過機(jī)器人 NAO 及 Pepper 的原型研發(fā)、Watson 智能會(huì)議助理研發(fā)等。

知文系統(tǒng)技術(shù)架構(gòu)與四次迭代

根據(jù)鐘黎的介紹,騰訊知文問答系統(tǒng)主要可以分為四大層次:

第一層:應(yīng)用層,包括智能客服機(jī)器人、智能外呼機(jī)、投訴引導(dǎo)機(jī)器人、任務(wù)查詢機(jī)器人等各類具體業(yè)務(wù)場景機(jī)器人。

第二層:接入層,包括公有云、私有云、私有化部署等多種接入方式。

第三層:核心問答引擎,包括信息問答、知識(shí)圖譜問答、任務(wù)型問答、文檔型問答以及多輪交互等技術(shù)模塊。

第四層:基礎(chǔ)能力層,包括數(shù)據(jù)能力(行業(yè)與領(lǐng)域數(shù)據(jù)、知識(shí)庫管理、遷移學(xué)習(xí)),NLP 能力(基礎(chǔ) NLP 算法組件),深度學(xué)習(xí)能力(復(fù)雜模型優(yōu)化、深度學(xué)習(xí)工程化),數(shù)據(jù)分析能力(自動(dòng)分析與監(jiān)控、趨勢分析、問題預(yù)測)等。

經(jīng)過數(shù)次迭代,知文不斷調(diào)整優(yōu)化知文的架構(gòu),以為用戶提供更好的體驗(yàn)。鐘黎告訴 AI 前線,知文的發(fā)展路徑整體來看是實(shí)際業(yè)務(wù)需求驅(qū)動(dòng)的。最開始是緣起內(nèi)部業(yè)務(wù)關(guān)于客服的工單統(tǒng)計(jì)和分類的需求,輔助人工客服。之后,團(tuán)隊(duì)發(fā)現(xiàn)其實(shí)可以用問答技術(shù)去解決大量頻繁、重復(fù)又比較簡單的問題,以減少人工客服的問詢量。隨著時(shí)間的推移,知文團(tuán)隊(duì)又遇到新的業(yè)務(wù)需求,即沒有工單,而是有比較多知識(shí)和文檔的場景,因此又逐漸引入知識(shí)圖譜技術(shù)、機(jī)器閱讀理解技術(shù)。目前,知文的研究重點(diǎn),一方面是在無標(biāo)注數(shù)據(jù)或者少量標(biāo)注數(shù)據(jù)下,知文問答平臺(tái)可以快速高效冷啟動(dòng)的方案,另一方面是多輪會(huì)話下解決用戶意圖在多個(gè)機(jī)器人間來回跳轉(zhuǎn)的問題。

在規(guī)模和應(yīng)用上,知文系統(tǒng)已經(jīng)支持了 5 大行業(yè)的智能客服,得到 20 多家行業(yè)頭部客戶的采用,包括中國銀行的新一代客服機(jī)器人項(xiàng)目,以及由騰訊 CEO 馬化騰親自站臺(tái)的“一部手機(jī)游云南”項(xiàng)目。

經(jīng)過架構(gòu)的不斷優(yōu)化,知文核心問答機(jī)器人架構(gòu)至今已經(jīng)過四次迭代。鐘黎介紹道,這四大核心機(jī)器人主要是指信息問答機(jī)器人、文檔閱讀理解機(jī)器人、任務(wù)執(zhí)行機(jī)器人以及知識(shí)圖譜機(jī)器人,但具體的迭代路徑、方法和思考,鐘黎表示將會(huì)在 AICon 上揭曉。

知文在 NLP 和語音技術(shù)上的突破

NLP 和語音在技術(shù)上仍然有很多亟待解決的問題,為解決這些問題,知文問答系統(tǒng)做出了諸多優(yōu)化和創(chuàng)新。例如,在核心的問答匹配上,其匹配模型引入了 ELMO 表示、詞圖卷積、intra/inter-attention 機(jī)制、位序損失、GLU 通路等,比當(dāng)前主流的匹配模型如 MatchPyramid、AICNN、BiMPM 等有更好的表現(xiàn)。在文檔閱讀理解上,知文問答模型引入了 template answer guiding 以及 tree-based spanning,突破了大部分學(xué)術(shù)論文只能做答案在原文中完全匹配且完全基于監(jiān)督數(shù)據(jù)的方法。在任務(wù)型問答上,知文問答模型在 end-to-end 的記憶網(wǎng)絡(luò)上進(jìn)行了知識(shí)增強(qiáng),對于多輪的任務(wù)型場景,模型能夠有效地記憶更長的會(huì)話信息和槽位狀態(tài)。

對于一家企業(yè)來說,打造一個(gè)能夠滿足用戶大多數(shù)需求的問答機(jī)器人絕非易事,在技術(shù)和落地上均會(huì)面臨很多挑戰(zhàn)。鐘黎告訴 AI 前線,知文團(tuán)隊(duì)在打造智能問答平臺(tái)的過程中遇到過很多技術(shù)難點(diǎn),在業(yè)務(wù)落地上也是如此。

其中,知文在業(yè)務(wù)落地中常見的難點(diǎn),第一個(gè)就是業(yè)務(wù)方往往沒有大量的標(biāo)注數(shù)據(jù)。智能問答平臺(tái)里包含了多個(gè)算法模型,如果每個(gè)都是監(jiān)督模型的話,意味著在上線之前需要“喂”進(jìn)去大量的監(jiān)督數(shù)據(jù),這對于業(yè)務(wù)方來說是很大的標(biāo)注負(fù)擔(dān)。第二個(gè)問題,就是業(yè)務(wù)方往往沒有特別地進(jìn)行知識(shí)庫管理,大多數(shù)是一些歷史工單或者 FAQ 問題,這些數(shù)據(jù)的結(jié)構(gòu)化程度還不夠高,沒有形成知識(shí)圖譜或者層級關(guān)系?;谶@些數(shù)據(jù)做多輪和反問交互,對知文來說是一個(gè)挑戰(zhàn)。針對這些問題,知文平臺(tái)在數(shù)據(jù)標(biāo)注方面采用了 few-shot learning 的思想,并通過遷移學(xué)習(xí)的方式,如表征遷移、模型框架遷移等,極大地降低了業(yè)務(wù)接入的數(shù)據(jù)門檻;另一方面,在無結(jié)構(gòu)知識(shí)庫管理上,知文平臺(tái)通過自動(dòng)圖譜構(gòu)建、動(dòng)態(tài)子圖生成的方式,實(shí)現(xiàn)通用多輪和反問的交互方式。

NLP 與語音未來趨勢
NLP 與語音交互融合協(xié)作

騰訊知文問答系統(tǒng)的背后,是 NLP 和語音技術(shù)相結(jié)合的技術(shù)在提供支持,這呼應(yīng)了業(yè)界有人提出的觀點(diǎn):NLP 與語音交互技術(shù)已然從獨(dú)立技術(shù),走向融合協(xié)作的道路。對此,鐘黎認(rèn)為,NLP 與語音技術(shù)本身有著緊密的聯(lián)系,語音技術(shù)的很多模型也在 NLP 里得到了廣泛應(yīng)用。一個(gè)完整的自然語言交互方案,必然需要同時(shí)融合語音和 NLP 的技術(shù),例如一個(gè)典型的流程,從用戶語音 query 進(jìn)來,要經(jīng)過語音喚醒、ASR、NLU、QA、NLG、TTS 等最后返回語音回答給用戶。騰訊知文的自然語言交互方案,現(xiàn)在也是正在從基于文本 NLP 技術(shù),到融合語音的完整自然語言交互技術(shù)。未來,一個(gè)更加自然、功能強(qiáng)大的智能語音交互產(chǎn)品,必然是充分融合了 NLP 與語音技術(shù)的成果。

表征與框架層遷移學(xué)習(xí):無標(biāo)注數(shù)據(jù)也是寶藏

雖然,NLP 和語音技術(shù)在最近幾年在技術(shù)和應(yīng)用上鮮有突破,但隨著更多研究人員和企業(yè)、組織進(jìn)入這一領(lǐng)域,相信在未來,這一領(lǐng)域?qū)⑨j釀出新一輪爆發(fā)和突破。

關(guān)于 NLP 技術(shù)未來發(fā)展的趨勢,鐘黎認(rèn)為近期 NLP 領(lǐng)域值得關(guān)注的趨勢是表征與框架層的遷移學(xué)習(xí),包括之前的 word2vec、glove,Al2 的 ELMO,OpenAI 的 GPT, Fast.AI 的 ULM,以及 Google 的 BERT,遷移學(xué)習(xí)從底層表示的遷移、語言模型的遷移,轉(zhuǎn)變到了模型框架的遷移。

這其中,他重點(diǎn)強(qiáng)調(diào)了谷歌提出的 BERT 模型?!巴ㄟ^海量無監(jiān)督數(shù)據(jù)的預(yù)訓(xùn)練,只需要在特定任務(wù)上對最后一層進(jìn)行 task-specific 的修改,就能取得很好的效果,目前已經(jīng)在數(shù)十個(gè)任務(wù)上驗(yàn)證了其有效性。這對于工業(yè)應(yīng)用是很大的福音,尤其對于小數(shù)據(jù)的任務(wù),我們只需要通過小數(shù)據(jù)來 fine tune 最后一層,也能取得很好的效果。在 NLP 領(lǐng)域,大量的無標(biāo)注數(shù)據(jù)的潛力尚待挖掘,這些遷移學(xué)習(xí)的方法在一定程度證明了無標(biāo)注數(shù)據(jù)也是寶藏。非常期待在自然語言領(lǐng)域無監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)能夠取得更多突破?!?/p>

新的落地場景:多模態(tài)內(nèi)容分發(fā)、普適計(jì)算下的語言交互

落地,是所有技術(shù)最終的歸屬,無法落地,再好的技術(shù)也無用武之地。鐘黎認(rèn)為,NLP 其實(shí)不是新事物,在互聯(lián)網(wǎng)的落地應(yīng)用上應(yīng)該算是其他 AI 方向的“前輩”,從門戶和搜索引擎時(shí)代開始,NLP 就一直是核心技術(shù)。

現(xiàn)在來看,NLP 技術(shù)有兩個(gè)新的落地場景值得重點(diǎn)關(guān)注:一是多模態(tài)內(nèi)容分發(fā)與內(nèi)容消費(fèi),包括各種信息流、資訊圈等,大量的信息處理、聚合與觸達(dá),都廣泛依賴 NLP 技術(shù)。另一個(gè)是普適計(jì)算下的自然語言交互,包括各種云 + 端的設(shè)備,例如手機(jī)、車載、音箱等等。

“人機(jī)交互的革命暗潮涌動(dòng),自然語言的方式將會(huì)在越來越多的場景發(fā)揮作用?!闭雇磥?,鐘黎如此說道。