国产精品国产a_久久久久久久久综合_免费午夜视频_黄色大片网站_欧美一级免费_av成人在线观看

什么是百度的技術(shù)基石?自然語(yǔ)言處理

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個(gè)廣告,點(diǎn)擊進(jìn)來(lái)看看。  
百度自然語(yǔ)言處理

作者微博@互聯(lián)網(wǎng)阿超,微信SuperSofter

百度是中國(guó)最具技術(shù)基因的互聯(lián)網(wǎng)企業(yè),一定程度可以說(shuō)技術(shù)是其根基。中文搜索、知識(shí)圖譜、大數(shù)據(jù)、自然語(yǔ)言處理、智能廣告等細(xì)分技術(shù)已成為百度獨(dú)有優(yōu)勢(shì),所有這些技術(shù)的基石又是什么呢?答案或許是NLP:自然語(yǔ)言處理。

NLP是搜索引擎的技術(shù)之本

搜索引擎最基本的模式是自動(dòng)化地聚合足夠多的“內(nèi)容”,對(duì)之進(jìn)行解析、處理和組織,響應(yīng)用戶的搜索請(qǐng)求找到對(duì)應(yīng)結(jié)果返回。每一個(gè)環(huán)節(jié),都需要用到自然語(yǔ)言處理。

爬取網(wǎng)頁(yè)時(shí)要分析HTML頁(yè)面以及處理爬取到的網(wǎng)頁(yè)內(nèi)容時(shí),需要對(duì)起進(jìn)行解析、分詞、變換等,這十分依賴自然語(yǔ)言處理技術(shù)。搜索引擎要聽(tīng)懂用戶的“人話”,用戶的搜索請(qǐng)求又是千奇百怪的,關(guān)鍵詞組合的方式越來(lái)越少,直接用自然語(yǔ)言搜索已成為不少人的習(xí)慣,人們更傾向于搜索“廣州到北京的航班信息”而不是“廣州 北京 航班”,因此搜索引擎必須理解用戶意圖才可以幫助其去找到準(zhǔn)確答案。

每一個(gè)環(huán)節(jié)自然語(yǔ)言處理都十分重要。這是NLP技術(shù)致力于解決的問(wèn)題。自然語(yǔ)言處理(Natural Language Processing:NLP)是計(jì)算機(jī)科學(xué)、人工智能以及語(yǔ)言學(xué)的交叉學(xué)科,旨在解決計(jì)算機(jī)與人類語(yǔ)言之間的交互問(wèn)題,這其中包括對(duì)自然語(yǔ)言的分析、理解、生成、檢索、變換及翻譯等方面。

不只是搜索本身,搜索引擎衍生產(chǎn)品大都會(huì)應(yīng)用到NLP技術(shù)。譬如百度、Google均提供的翻譯服務(wù)就是最經(jīng)典的自然語(yǔ)言應(yīng)用,它可以智能化地翻譯大段文章,支持多種語(yǔ)言之間的互相翻譯。還有百度知道,它可以智能化地識(shí)別相似的問(wèn)題避免用戶重復(fù)提問(wèn)。再比如Siri掀起的語(yǔ)音助手浪潮最后反而被百度、Google等搜索玩家搶得先機(jī),就是因?yàn)樗阉饕娓瞄L(zhǎng)于NLP技術(shù),百度語(yǔ)音助手和Google Now在中文和英文語(yǔ)音領(lǐng)域表現(xiàn)都比Siri更為突出。

總之,搜索引擎連接人與信息,它要能幫助人們更加高效地獲取信息就必須學(xué)會(huì)像人類一樣去讀取信息,它要能夠理解人們對(duì)信息的需求就需要去聽(tīng)懂“人話”,這都注定了NLP技術(shù)將成為搜索引擎的技術(shù)之本。

無(wú)處不在的NLP讓百度更智能

百度從第一天處理用戶的第一次搜索開(kāi)始便開(kāi)始應(yīng)用NLP技術(shù)。十多年來(lái),百度的用戶數(shù)已經(jīng)超過(guò)5億,百度公司員工規(guī)模超過(guò)3萬(wàn)人,百度市值則逼近1000億美金。伴隨著百度的快速發(fā)展,百度NLP團(tuán)隊(duì)在同步地、甚至更快地發(fā)展壯大,NLP技術(shù)本身也在發(fā)生著劇變,但總的來(lái)說(shuō),就是它幫助百度變得更加聰明。

2010年春,國(guó)際頂級(jí)自然語(yǔ)言處理專家王海峰博士加盟百度后,對(duì)百度NLP的工作進(jìn)行了重新梳理與規(guī)劃,除分詞、專名識(shí)別、query需求分析、query改寫(xiě)等傳統(tǒng)方向得到加強(qiáng)外,拓展了機(jī)器翻譯、機(jī)器學(xué)習(xí)、語(yǔ)義搜索、語(yǔ)義理解、智能交互、深度問(wèn)答、篇章理解等新的技術(shù)方向。現(xiàn)在NLP團(tuán)隊(duì)已經(jīng)由當(dāng)初僅10余人發(fā)展成為今天超過(guò)200人規(guī)模的團(tuán)隊(duì),操盤(pán)手正是王海峰博士。因?yàn)槔碚撛煸勔约霸诎俣鹊墓こ虒?shí)踐成就,王海峰成為自然語(yǔ)言處理領(lǐng)域世界上影響力最大的國(guó)際學(xué)術(shù)組織ACL(Association for Computational Linguistics)50多年歷史上唯一華人主席。

現(xiàn)在NLP團(tuán)隊(duì)的技術(shù)正應(yīng)用在百度的方方面面。

搜索引擎是NLP技術(shù)最大的用武之地。相比當(dāng)年用戶需要學(xué)習(xí)如何使用搜索引擎而言,今天的用戶完全可以直接輸入任何想到的需求或者問(wèn)題,甚至直接通過(guò)話筒向百度語(yǔ)音助手提問(wèn)。譬如用戶可以搜“天氣”、“日歷”、“機(jī)票”、“匯率”這樣的模糊需求,百度會(huì)直接在搜索結(jié)果呈現(xiàn)結(jié)果。再比如用戶可以搜索“5000港幣是多少人民幣”百度結(jié)果中會(huì)直接呈現(xiàn)一個(gè)計(jì)算器。用戶還可以搜索“演過(guò)還珠格格的臺(tái)灣演員”“張柏芝的兒子的爺爺是誰(shuí)”這樣的復(fù)雜問(wèn)題,百度都可以準(zhǔn)確地回答。

基于知識(shí)圖譜技術(shù)的“百度知心”同樣處處用到NLP技術(shù)。知識(shí)圖譜是讓搜索引擎結(jié)果可以聯(lián)想出更多相關(guān)結(jié)構(gòu)化信息技術(shù),百度結(jié)果頁(yè)面右側(cè)的結(jié)構(gòu)化信息便是知識(shí)圖譜結(jié)果集。舉個(gè)例子,用戶搜索“虎嗅網(wǎng)”搜索引擎右側(cè)便會(huì)展示與之相似的其他科技媒體譬如“36kr”。用戶搜索’青藏高原’和’小威’的時(shí)候,知心右側(cè)都會(huì)推薦‘李娜’,但前者推薦的是歌唱家李娜,后者推薦的是網(wǎng)球明星李娜,這便是基于NLP的實(shí)體消歧技術(shù)。

深度問(wèn)答技術(shù)則是機(jī)遇NLP技術(shù)和深度學(xué)習(xí)技術(shù)的問(wèn)答產(chǎn)品。百度出品的智能問(wèn)答機(jī)器人在江蘇衛(wèi)視《芝麻開(kāi)門(mén)》節(jié)目中取得了卓越成就,答題準(zhǔn)確率遠(yuǎn)超人類選手,正是得益于百度深厚的知識(shí)沉淀以及百度對(duì)用戶問(wèn)題的精準(zhǔn)理解。不過(guò)這項(xiàng)技術(shù)并不只是用于比賽,在百度語(yǔ)音助手、百度知道以及百度搜索等產(chǎn)品之中,深度問(wèn)答技術(shù)均被廣泛應(yīng)用,它可以精準(zhǔn)理解用戶的復(fù)雜問(wèn)題,并且可以結(jié)合上下文、結(jié)合場(chǎng)景對(duì)問(wèn)題做出不同理解。

例如,當(dāng)我們?cè)诎俣戎兴阉鳌盎ㄉl(fā)芽了還能吃嗎”,得到的答案已不再是互聯(lián)網(wǎng)上五花八門(mén)的原始網(wǎng)頁(yè)答案,而是讓人一目了然的匯總式答案摘要。除了這樣的“一問(wèn)一答”,用戶還可以與百度對(duì)話,問(wèn)它一個(gè)又一個(gè)問(wèn)題,NLP最終可以讓用戶使用自然語(yǔ)言進(jìn)行搜索,并且采用多輪交互的方式來(lái)逐步澄清和滿足需求,從而完成深度決策型的搜索任務(wù)。百度NLP團(tuán)隊(duì)研發(fā)的“交互搜索技術(shù)”便可以做到多輪問(wèn)答,而“多模(multi-modal)交互技術(shù)”則可以讓用戶通過(guò)文字、語(yǔ)音、圖片、LBS等多種輸入形式進(jìn)行更加人性化、更加簡(jiǎn)單易用的搜索,未來(lái)擴(kuò)展到通過(guò)視頻作為輸入進(jìn)行搜索也是有可能的。

深度問(wèn)答技術(shù)還可以應(yīng)用到許多垂直領(lǐng)域。比如與教育結(jié)合的“百度考霸”就成為高中生填報(bào)高校志愿的得力助手,它今年一共服務(wù)畢業(yè)生550萬(wàn)次,幫助他們更加高效、簡(jiǎn)單和全面地了解高校和專業(yè)。再比如與醫(yī)療健康結(jié)合就可以實(shí)現(xiàn)尋醫(yī)問(wèn)藥,我們可以搜索“頭疼怎么辦”百度便會(huì)給出結(jié)構(gòu)化的疑似病癥列表甚至用藥建議。在“泛需求搜索”上百度可以很好地理解用戶的模糊需求,在百度中搜索“家常菜”,搜索引擎將返回的3萬(wàn)多種家常菜按照“菜系”、“功效”和“口味”進(jìn)行歸類展現(xiàn),層次分明、一目了然。

不論是搜索引擎還是知識(shí)圖譜還是深度問(wèn)答,最關(guān)鍵的技術(shù)點(diǎn)就是NLP。NLP做好了還將形成壁壘,因?yàn)楸M管對(duì)手可以做出類似的搜索頻道或者子產(chǎn)品,但在智能化、準(zhǔn)確性以及易用性上要趕上百度卻并不容易。NLP技術(shù)即需要數(shù)據(jù)積累,在算法的積累、團(tuán)隊(duì)的沉淀上都需要時(shí)間,后來(lái)者很難追平。

NLP未來(lái)對(duì)百度會(huì)愈發(fā)重要

NLP(自然語(yǔ)言處理)技術(shù)對(duì)百度而言只會(huì)更加重要。

搜索引擎的職責(zé)已經(jīng)不單單是幫助用戶找到答案,而是幫助用戶找到所求,連接人與實(shí)體世界的服務(wù),成為用戶的智能化助理。無(wú)限接近人類的智慧是人類賦予機(jī)器的終極目標(biāo)。對(duì)于百度而言,一是要從搜索引擎上升到服務(wù)連接平臺(tái),二是要大力發(fā)展人工智能、大數(shù)據(jù)、深度學(xué)習(xí)等面向未來(lái)的新興技術(shù),這些目標(biāo)均離不開(kāi)“理解用戶需求、智能化地組織信息和服務(wù)”,這均十分依賴NLP技術(shù)。

NLP技術(shù)本身也在升級(jí)。從名稱來(lái)看它是語(yǔ)言處理技術(shù),能夠理解文本似乎就夠了。實(shí)際上現(xiàn)在它要理解的是語(yǔ)言所表征的人類的需求。除了文字之外,語(yǔ)音、圖像也是人類需求表達(dá)的載體。同時(shí),用戶所處的環(huán)境(LBS)、用戶的個(gè)人特征(用戶畫(huà)像)、用戶發(fā)出請(qǐng)求的時(shí)間也會(huì)賦予同一個(gè)請(qǐng)求不同的目的。因此,NLP技術(shù)在處理用戶語(yǔ)言本身的時(shí)候,還需要結(jié)合上述因素去理解用戶背后的需求。看上去NLP正在升級(jí)成為一項(xiàng)全新的“人類信息識(shí)別和需求理解技術(shù)”。

技術(shù)是百度的基因,技術(shù)和數(shù)據(jù)積累形成的用戶、產(chǎn)品和品牌優(yōu)勢(shì)是百度的護(hù)城河。NLP則是百度技術(shù)的基石,它賦予了百度技術(shù)“智能化”的基因,在過(guò)去智能化的搜索讓百度越來(lái)越好用為其在中文搜索市場(chǎng)奠定了王者地位;在未來(lái)智能化連接用戶與服務(wù)成為百度與阿里騰訊等巨頭最大的區(qū)隔時(shí),NLP技術(shù)只會(huì)更加重要。因此毫不夸張地說(shuō),NLP就是百度的技術(shù)基石。

本文被轉(zhuǎn)載2次

首發(fā)媒體 獵云網(wǎng) | 轉(zhuǎn)發(fā)媒體

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 国产chinesehd精品91 | 性生活香蕉视频 | 羞羞视频免费网站日本动漫 | 午夜视频在线免费观看 | 日本人乱人乱亲乱色视频观看 | 91成人免费视频 | 在线播放黄色片 | 亚洲操比视频 | 一级国产精品一级国产精品片 | 黄a大片 | 欧美a级大胆视频 | 欧美日韩亚洲在线观看 | 欧美日本在线视频 | 天天鲁在线视频免费观看 | 国产永久免费观看 | 国产一区国产二区在线观看 | 337p日本欧洲亚洲大胆精蜜臀 | av在线1| 91久久国产综合久久91猫猫 | 欧美第1页 | 国产91在线亚洲 | 国产精品久久久久久久久久久久久久久久 | 免费观看黄色一级视频 | 97中文字幕第一一一页 | 色婷婷av一区二区三区久久 | 久草在线资源福利站 | 久久国产一 | 亚洲成人精品在线 | 欧美一级视屏 | 国产精品视频在 | 性色av一区二区三区在线观看 | 欧美一级黄 | 一级大片一级一大片 | 91成人一区二区三区 | 国产一区精品在线观看 | 免费色片 | 国产成人av一区 | 成人免费毛片网站 | 成人在线视频播放 | h色网站免费观看 | 亚洲精品欧美在线 |