如何做到聽懂和看懂,這就是多模態語義理解要解決的問題。
7月9-10日,36氪在北京和上海同步舉辦“2019WISE超級進化者”大會,活動設有七大會場,關注企業發展變革路徑、行業風向把握、零售行業的進擊與蛻變、萬億企業服務市場的崛起、產業創新機會、全球化趨勢與差異化需求的爆發邏輯等議題,邀請超百位行業領袖,聚焦那些引領行業變革的超級進化者的崛起之路。
細心、周到、有同理心,這或許是人們對未來機器的想象。然而目前看來,我們距離這種理想狀態還有差距。在AI領域中,語音識別、圖像識別和語義理解與機器的智能化息息相關。相對于語音識別和圖像識別的大規模落地,語義理解的落地目前還處于推進過程中。深思考就是一家專注于多模態語義理解的公司,這家公司未來的目標是做萬物互聯時代語義理解的大腦。在深思考人工智能CEO兼AI算法科學家——楊志明博士看來,目前人機對話的體驗和效果遠遠不夠,背后缺的就是多模態語義理解,而擁有多模態語義理解相關技術的深思考,已經在汽車、智能家居、醫療健康等領域實現產品和AI技術的突破。楊志明認為,未來還會有更多、更前沿的應用出現。
以下是演講正文
大家好,非常榮幸與大家分享一下深度思考人工智能在AI語義理解的規模化落地。
我們聚焦多模態深度語義理解技術。目前AI粗略分三大領域:語音識別、圖像識別和語義理解,在學術界大家認為語義理解是人工智能最后的一個皇冠。目前語義理解最前沿的技術叫多模態語義理解技術,就像人看電視一樣,是同時看著畫面、聽著聲音、看著字幕來做綜合理解,其中人腦就是多模態深度語義理解的“引擎”。我們專注于多模態深度語義理解技術,我們是語義理解賽道的企業。
今天分享一下,人工智能語音識別、圖像識別已經實現了大規模的落地,語義理解如何像圖像識別和語音識別一樣大規模快速落地。
介紹一下深思考:深思考最擅長多模態深度語義理解,在短文本理解方面,聚焦在人機對話方面,目前是中文領域上下文多輪人機對話技術權威賽事評測的多屆蟬聯冠軍;在長文本理解方面,主要體現是機器閱讀理解,最新的2019語言與智能技術競賽拿了全世界中文的第一名。深思考團隊來自于中科院和清華大學的AI一線科學家。我們未來的目標,是做5G時代或者萬物互聯時代語義理解的大腦。我們的產品就是多模態深度語義理解引擎iDeepWise.ai。語音識別能解決聽見的問題,圖像識別解決看見的問題,那如何做到既聽懂也看懂,這就是多模態語義理解要解決的問題。
介紹一下深思考落地產品。現在深思考聚焦多模態深度語義理解引擎iDeepWise.ai,聚焦To B戰略,實現了多個場景下產品的快速、深度落地。在智能車聯網數字座艙場景下:我們的產品落地在智能車聯網數字座艙內的多模態語義理解與人機交互;在智慧營銷場景下,我們的產品幫助汽車用戶進行AI自動建檔、AI用戶意向分級,幫助汽車主機廠分析潛在客戶,提高銷售成單率。在醫療健康場景下,用多模態語義理解技術做癌癥早期篩查。在智能家居場景下,實現健康營養、人與家庭和家居設備的人機交互。另外依托于2億部智能終端手機場景做手機和人的交互。
介紹一下第一個落地場景,就是智能車聯網數字座艙。傳統的汽車有一個各種儀表的傳統的駕駛室,。隨著汽車自動駕駛、智能車聯網不斷發展情況下,傳統座艙發生了改變,我們稱之為數字座艙。意思就是不再是一個簡單的駕駛室,而是成為汽車在駕駛過程中的一個中央的多模態信息的匯聚地。比如智能車聯網場景下,汽車跟道路基礎設施之間、汽車跟汽車之間、汽車跟互聯網之間都能夠做信息的連接和交互。汽車本身裝了一些系統,通過視覺對車外的環境做感知與理解。很多汽車內部有很多傳感器,比如溫度傳感器、有語音信息輸入。在智能車聯網有很多模態的信息,有手勢的模態、語音的模態、圖像的模態。數字化場景下這些多模態信息如何匯聚起來做綜合理解,提供給人做互動,我們提供多模態語義理解與人車交互大腦。
我們用在車內,第一能對多模態信息進行理解,第二可以在數字座艙環境下實現人、車和家庭的連接。在汽車里面,比如商務汽車,可以通過人車對話做智慧辦公。另外我們還實現了RPA,傳統的人機對話只是實現問答式交互,我們加入RPA自動軟件機器人,不光跟你做人車對話,而且能夠自動幫你完成一些事情,比如預定會議室、和家里的設備做聯動、執行。在智慧駕駛場景下處理業務、家庭場景下進行健康咨詢,也可以融入數字座艙的應用里。
第二個是汽車智慧營銷場景。汽車營銷場景下,有用戶的對話信息、線上咨詢信息、線下有用戶的路線、停留時間、實際看車時的各種信息,我們把它綜合起來做多模態語義理解。最后對用戶進行AI自動建檔、AI自動用戶分級,以及大數據分析,為主機廠商銷售提供閉環的大數據分析,以及助力4S店把車銷售得更好。
第三,針對手機場景,跟手機廠商做深度戰略合作。比如在智慧出行,用手機訂酒店、訂車票、訂飯店。像蘋果Siri是一問一答式的,但一些事情不是通過一問一答就能完成,中間可能會穿插不同的場景。目前這塊我們已經有很大的突破,深思考的人機對話技術,不但能夠實現上下文理解,還可以做到切換完場景之后,還可以切換回來,實現自由跨域的對話,最后通過RPA幫你自動完成這個任務。
另外在健康咨詢這塊,很多健康營養非常重要,比如婦女孕期的健康咨詢,不用去醫院,可以通過人機交互的方式,以手機作為載體,實現健康咨詢場景下的多模態語義理解和人機對話。
第四,智能家居人機交互場景。目前的對話體驗遠遠不夠,背后缺的就是語義理解,就是它能聽見語音指令,但不能理解背后的場景。比如年初有一個媒體披露,“我要訂餐,不要日本菜”,結果出來的都是日本菜。比如有一些廠商發布音箱的時候,無法進行上下文理解,“來一首梅艷芳的歌,然后再說換一首她唱的其他歌”,就成了其他人唱的歌。如果用了多模態理解技術,就可以實現上下文的指代,說“再換一她唱的其他首歌”,出來還會是梅艷芳的歌。比如調空調溫度,傳統的語音識別可以識別出“調到28度”這一固定指令,但是如果說“我感覺有點熱,幫我調到適合的溫度”,這時候就不能理解了。語義理解就可以起到這個作用,了解你的個性化信息和習慣,能夠理解大白話。比如“調高一點”,它可以通過語義理解實現最終的意圖。
第五,智慧醫療健康領域。
目前已經實現了大規模醫療早篩。為什么語義理解能夠用在AI早篩呢?舉個例子,宮頸癌的篩查,單個細胞來看很難看出該細胞是陰性、陽性或者病變。但是根據周圍環境和相鄰細胞的位置關系、排列組合關系,可以判斷出該細胞是隱性還是陽性。這就是圖像視覺的語義理解,就是能夠通過多維度信息理解圖像背后的含義,就是說AI能“看懂”這張圖。
深思考落地的時候,重點關注AI的三駕馬車——算法、算力和數據。在長文本的理解上,比如閱讀一本書,傳統人機對話技術需要搭建知識圖譜和問答對的數據庫。而最新的語義理解技術,可以像人一樣,看完一本書以后,會對這本書里面的非結構化文本進行多模態理解建模,當你問這本書里面的問題時。它對這本書里面的非結構化的信息進行多模態理解以后回答,非常類似人腦理解以后再回答問題。人看完一本書去回答一個問題時,不會先整理出一個問答對或者知識圖譜。人是憑著大腦的理解,回復別人問的問題。機器閱讀理解的基本原理就是這樣,在這方面,深思考是具備非常突出的技術優勢的。
深思考具備了非結構化長文本的機器閱讀理解能力,避免了傳統語義理解或者智能客服,用大量的人力物力去構建知識圖譜或者問答對。我們直接閱讀非結構化文本,一篇文章、一個網頁都是非結構化的,現實中數據都是以非結構化為主。
深思考如何做到AI語義理解的規模化落地?除了上文闡述的以外,還實現了AI的落地場景的四個閉環。
第一,業務閉環。很多AI廠商提供一個單一的API接口或者某一塊算法。這樣很難深入到業務場景。我們深入業務場景,解決業務場景里面的關鍵問題,提供一站式解決方案,實現業務閉環。
第二,數據閉環。把業務場景下的數據從流入到流出,流入以后AI如何去學習,如何去整理這些數據,如何用這些數據構建AI模型,以及用AI模型更好地輸出AI能力,解決產品落地當中的問題,實現數據閉環。
第三,模型閉環。AI模型通過無監督、半監督或者全監督學習,不斷在線訓練AI模型。模型在線訓練以后,其具備更強的能力去解決問題,從而用戶就會越喜歡用,越喜歡用,這個場景積累的數據會越多,就成一個良性閉環,最終還是打造一個產品閉環。
第四,產品閉環。落地時候不管是AI還是BI,最后還是解決用戶場景下的服務問題。
總結一下,語音識別聚焦聽見的問題,圖像識別聚焦看見的問題,深思考主要聚焦聽懂看懂的問題。未來隨著5G、物聯網以及產業互聯網的發展,要深植邊緣計算和中央智能,成為萬物互聯里面的語義理解的大腦。未來的設備不光能聽到、看到,而且能理解你、聽懂你、看懂你,更好地為你服務。處處皆智能,萬物可對話。
目前深思考已經商業化深度落地了大量的場景,汽車、醫療、智能家居中一些頭部客戶的已經成功落地,并不斷快速規模化擴展
希望大家多多關注深思考人工智能。謝謝大家!
文章來源:36氪公眾號
如有侵權,請聯系刪除。
未經允許不得轉載:RPA中國 | RPA全球生態 | 數字化勞動力 | RPA新聞 | 推動中國RPA生態發展 | 流 > 深思考人工智能 CEO 楊志明:多模態語義理解,是機器能否實現智能的關鍵
熱門信息
閱讀 (14728)
1 2023第三屆中國RPA+AI開發者大賽圓滿收官&獲獎名單公示閱讀 (13753)
2 《Market Insight:中國RPA市場發展洞察(2022)》報告正式發布 | RPA中國閱讀 (13055)
3 「RPA中國杯 · 第五屆RPA極客挑戰賽」成功舉辦及獲獎名單公示閱讀 (12964)
4 與科技共贏,與產業共進,第四屆ISIG中國產業智能大會成功召開閱讀 (11567)
5 《2022年中國流程挖掘行業研究報告》正式發布 | RPA中國