欧美经典成人在观看线视频_嫩草成人影院_国产在线精品一区二区中文_国产欧美日韩综合二区三区

二維碼出入庫管理系統讓倉儲進出庫作業高效低成本化

二維碼出入庫管理系統讓倉儲進出庫作業高效低成本化

籍春芳 2025-08-01 手機 6 次瀏覽 0個評論

  人工智能學家

科技導報

戰略前沿技術整理

作者:萬赟,美國休斯敦大學維多利亞分校

  人工智能誕生

  2014 年英美合作的電影《模仿游戲》講述了英國數學家艾倫·圖靈60年前在二戰期間幫助設計電子計算機破譯納粹德國軍事密碼的真實故事。不過影片的名字與圖靈在電影中的事跡并沒有直接關系,而是來自當時英國流行的游戲。游戲中一男一女分別躲在幕后,參加游戲的人向他們兩個人不斷提問題,他們通過無法識別筆跡的筆答方式來回答,提問題的人根據回答來判斷這兩個人的性別。1950 年圖靈在《計算機與智能》[1]一文中借用這個游戲做為判斷計算機是否具有人類智能的標準,也就是把一個人和一臺計算機放在幕后,讓測試人員通過提問來判斷哪一個是計算機,如果判斷錯誤的話,就認為計算機通過了圖靈測試,具有人的智能。后來人工智能學者將圖靈這篇論文中描述的計算機稱為圖靈機,這一測試方式稱為圖靈測試(注:圖靈本人曾經預測隨著足夠多內存的出現,50年內(也就是到2000年)計算機能夠達到圖靈機的標準)。40年后的1990年英國劍橋大學為了推動圖靈機的實現設立了總額為10萬美元的圖靈測試比賽(The Leobner Prize),每年舉辦一次,直到有人能夠設計出達到標準的圖靈機為止,結果16年后的今天比賽仍在繼續。盡管如此,圖靈測試為人工智能領域的發展豎立起一個目標。隨著幾代人工智能學者的不斷研究,逐漸認識到人腦的高度復雜性和計算機的局限性。這些發現幫助我們不斷把人工智能技術應用到生產和生活的諸多方面。

  第二次世界大戰期間,英國軍方需要盡快破譯納粹德國軍事密碼,圖靈參與并主導了英國電子計算機的研制。同時期美國科學家也投入到計算機的研制工作。戰后電子計算機開始從純軍事領域轉向民用,很多具有不同學術背景的專家聚攏到計算機的應用領域,其中不乏青年才俊。1956 年夏天,一批學者聚集在達特茅斯學院召開了一次關于人工智能的研討會,該會議成為人工智能領域正式創立的標志。會議的召集人是達特茅斯學院的數學系助理教授麥卡錫(John McCarthy),參與人包括明斯基(Marvin Minsky),西蒙(Herbert Simon)以及西蒙的合作伙伴紐厄爾(Allen Newell)。由于不同的學術背景和對智能以及實現智能的不同看法,人工智能從一開始就形成兩類不同的流派和方法。

  第一類是以西蒙和紐厄爾代表的理性學派。這一學派認為人腦與計算機可以看成信息處理器。計算機的智能和人腦的智能主要表現在對抽象化問題的解決上。任何能夠以一定的邏輯規則描述的問題都可以通過人工智能程序來計算解決,尤其是對人腦來說過于復雜的邏輯問題。西蒙有一段時間專門研究公司里人們的行為決策,他發現由于認知能力的限制,人在做決策時并不像經濟學里的理性人描述地那樣,能夠總是去尋求最優解,大多數情況下是尋找能夠滿足最低要求的解決方案。他將這一現象稱為“滿意解(satisficing)”,用來區別對理性人所假設的“最優解(optimizing)”。他認為這一現象產生的原因是人理性的有限性或者說是有邊界的理性(bounded rationality)。在這一觀念的影響下,他認為計算機帶來的人工智能可以大大延伸人類理性。按照這一思路,西蒙和紐厄爾在人工智能領域取得了不少成果。1955年他們設計的邏輯機程序成功證明了羅素和懷特海所著的《數學原理》一書提出的52個定理中的38個,其中不少證明比原書中的更加精彩。根據對邏輯機的研究,1957 年他們又設(general problem solver),希望以此來解決任何可以形式化的符號問題(定理證明、幾何問題及國際象棋對抗等)。

  西蒙所代表的理性流派雖然在機器定理證明和簡單邏輯問題解決(比如漢諾塔問題)上取得了顯著的成就,但一旦面對復雜的問題,有限的計算機內存空間很快就因為探索問題解決空間時考慮不同路徑帶來的組合爆炸而無法進行下去。由于同樣的原因,很多人工智能專家認為計算機程序雖然可以擊敗人類國際象棋冠軍,但可能永遠無法擊敗人類圍棋冠軍,因為后者的探索空間太大(圖1)。

二維碼出入庫管理系統讓倉儲進出庫作業高效低成本化

圖1 無論是國際象棋還是圍棋,目前都是通過對樹結構空間的廣度b(每一步可能的下法)與深度d(總回合)搜索相結合進行判斷(bd),國際象棋的搜索維度(廣度35;深度80)遠遠少于圍棋(廣度250;深度150)

  與西蒙他們的理性學派在方法上形成對比的是感性學派。感性學派簡單說就是通過對腦神經的模擬來獲得人工智能。

  人腦神經元一般由細胞體、樹突和軸突組成。樹突用來接收其他神經元傳遞過來的信息,軸突及其頂端的突觸則用來傳遞信息給其他神經元。1949年加拿大神經心理學家赫布提出理論,解釋了人腦在學習過程中腦神經元發生的變化。赫布理論認為如果一個神經元持續激活另一個神經元,這種持續重復的刺激可以導致突觸傳遞效能的增加。具體表現為前者的軸突將會生長出突觸小體(如果已有,則會繼續長大),并和后者的胞體相連接,形成記憶痕跡。當時正在哈佛讀本科的明斯基受到啟發,產生了制作一個電子模擬神經網絡實現人工智能的想法。1951年在美國心理學大師米勒的幫助下,明斯基和帕爾特(Seymour Papert)獲得了美國海軍經費資助設計出世界上第1臺用來對迷宮求解的電子神經網絡(SNARC),包含40個電子神經和若干內存。每一個電子神經元由6個真空管和一個馬達組成,整個設備使用了300 多個真空管(圖2)。這一貢獻使明斯基被認為是人工神經網絡的先驅。

圖2 SNARC 使用的真空管是當時電子計算機的基本原件,每一個真空管通過開和關兩種狀態代表一個比特的信息

  最早把神經網絡原理成功應用到圖像識別的是康奈爾大學的心理學教授羅森布拉特。他和明斯基都畢業于紐約布朗克斯科學高中,而且是后者的學長。1957年他利用神經網絡原理成功制做了電子感知機(Perceptron,圖3),該設備因為能夠讀入并識別簡單的字母和圖像而在當時引起轟動,使得很多專家預測在幾年后計算機將具備思考功能。

圖3 1957 年,羅森布拉特根據赫布原理用IBM 704 完成了感知機的仿真。后來用馬克1 號制作了上面這臺基于感知機的神經計算機,成功實現了一些英文字母的識別。1960 年6 月23 日該神經計算機進行了公眾展示,該計算機與一個能夠攝取400 個像素(20x20)的感光板相連

  明斯基和羅森布拉特設計的人工神經網絡以及后來人工智能專家在計算機上虛擬生成的更復雜的人工神經網絡,都是通過模擬人腦神經細胞的記憶結構來實現的。由于神經網路鏈接的權重分布需要根據輸入的信息不斷調整,但是調整過程對外界來說是一個黑盒子,所以在設計不同的人工神經網絡時,除了遵循一些基本原則外,更多需要通過經驗和直覺來進行,據此有人稱人工神經網絡的設計為一門“藝術”而非“科學”,與西蒙等所倡導的理性學派形成了顯著區別。

  難以逾越的局限

  20世紀50年代人工智能的誕生和流行除了與電子計算機的問世有直接聯系外,也與當時美蘇冷戰有很大關聯。1954年美蘇冷戰期間美國軍方希望計算機產生的人工智能能夠自動翻譯俄語情報和資料,所以對在這一領域的突破賦予很高的期望,投入了大量的財力和人力。除了海軍和空軍,20世紀60年代初期互聯網先驅立克里德在美國國防部高級計劃署任職期間,每年資助麻省理工(明斯基)、卡梅(西蒙和紐厄爾)和斯坦福(麥卡錫)數百萬美元的經費從事計算機以及人工智能方面的研究。

  而人工智能的研發在經歷了前面描述的這些突破后很快就變得停滯不前,最主要的原因是計算機內存和運算速度的限制。比如20 世紀60 年代末SDC公司奎利恩(Ross Quillian)等設計的頗為成功的自然語言翻譯程序所使用的計算機內存最多只能同時導入20個單詞。1976 年,從事機器人研究的人工智能專家莫拉維克(Hans Moravec)估計僅僅讓計算機具備人的視網膜識別物體的邊界和探測移動的功能就需要至少10 億次/s 的運算能力,但當時最快的超級計算機的運算速度也僅有8000萬~13000萬次/s。

  除了計算能力的限制外,絕大多數人工智能應用,比如圖像和聲音的識別,需要通過大量的學習才能達到一定的準確率。20世紀60年代數據庫本身還處于發展階段,根本沒有積累如此多的數據,這與40年后深度學習出現時互聯網上已經存在了海量信息所提供的學習環境是無法比擬的。于是從1966年美國政府組織的自動語言處理調查委員會給出ALPAC報告后[2],人工智能開始遇冷。1973年英國政府發布了劍橋大學教授萊特希爾的人工智能調查報告[3],給第一輪人工智能的發展正式劃上了句號。

  專家與超算

  第一代人工智能系統的興起與衰落讓人們對人工智能系統有了更豐富的認識。20世紀80年代出現的專家系統是人工智能第2階段發展過程中最有代表性的例子。

  西蒙和紐厄爾在設計人工智能系統時注重系統的特定形式和推理機制,但是這類系統往往無法解決純邏輯推理外的具體生產領域問題,這是因為它們缺少這些領域的具體知識。于是20世紀80年代的人工智能領域開始把研究的重點放在為不同的系統提供它們所在領域的專業知識上,試圖通過專業知識與推理機制相結合來達到專家水平。西蒙的學生,被稱為專家系統之父的費根鮑姆將其總結為智能系統的強大來自于它們所掌握的知識而不是具體的規則和理論。

  最早獲得商業成功的專家系統是卡梅大學為DEC開發的用戶訂單配置系統。20世紀70年代誕生于麻省理工林肯實驗室的DEC公司相當于20世紀90年代的戴爾,它是最早利用半導體和集成線路技術把大型機體積變小,價格變低,從而讓學校和小公司也可以使用計算機的創新公司。因為在它之前的很多計算機公司已倒閉,為了不嚇走風投資本,它的商業模式采取了提供計算機配件,讓用戶可以自由組裝的方式,因此受到大學和研究機構用戶的青睞。隨著訂單的不斷增加,DEC 開始面臨一個問題:銷售人員經常搞錯用戶選購計算機時需要的各種配件(當時都是以人工方式生成),造成了運營成本的增加。于是卡梅大學幫助DEC開發了XCON(訂單專家)系統。1980 年,DEC開始使用該系統后通過與銷售人員互動積累了2500多條配置規則,運行6年共處理了8萬多筆訂單,準確率高達95%~98%,為DEC 公司節省了2500多萬美元的成本。

  20世紀80年代,摩爾定律帶來的內存容量和CPU 運算速度的指數增長、關系數據庫技術的成熟、個人計算機和局域網技術的普及等因素也是促成專家系統全面開花的重要前提。因為計算機成本的不斷下降,企業不同部門開始各自的局域網內搭建需要的專家系統,在客觀上造成了對這些系統的需求。這些利好因素再加上像早期XCON這類系統的成功,使得人工智能領域通過專家系統進入第2次高速發展階段。

  專家系統的成功再次引發了學術泡沫。不少人認為專家系統可以很快應用到軟件開發上,實現軟件開發的自動化。面對這次學術大躍進,也有不少頭腦冷靜者。1986年北卡羅來納大學教堂山分校計算機系主任布魯克斯發表了一篇后來成為計算機學術歷史上經典的論文“沒有銀彈”[4]。在這篇論文里布魯克斯質疑了已經膨脹多年的關于自動編程可以很快實現的學術泡沫。后來他在《人月神話》一書中結合當年開發IBM 360操作系統的經歷,進一步闡述了大型軟件工程的復雜性(圖4)。

圖4 布魯克斯的名著《人月神話》,封面用深陷瀝青湖無法脫身的3 只野獸來比喻大型軟件開發過程的復雜性

  布魯克斯在20世紀60年代曾經擔任IBM 360大型機操作系統的開發負責人,對大型軟件工程的復雜性有著切身體會。他以一個孕婦需要10個月才能生出一個孩子,但是10個孕婦加在一起也不可能在一個月生出一個孩子來比喻軟件開發的不可避免的復雜性。他認為當時沒有任何技術或者管理方式能夠讓編程效率在10年內增長10倍,事實也的確如此。布魯克斯發表這篇論文直接或間接導致了人工智能的第2次低潮。因為這時專家系統沒能再有大的突破。

  專家系統在20世紀80年代的瓶頸除了計算機軟硬件本身的限制外,還有其他因素。比如每個公司和研究團隊研發的專家系統都是自成體系的封閉系統,沒有開源軟件和公開的數據標準來共享數據和策略,所以任何2個專家系統之間無法相互協作。另外盡管大家認識到專家系統中知識的重要性,但是知識體系的復雜性遠遠超過預期。直到20世紀90年代,學術界和產業界才通過系統地分析人類知識結構,發現其龐大性以及知識本身的顯性和隱性之分[5]。20世紀90年代后期曾經有不少人工智能學者試圖把人類的全部知識通過共享的方式構建到一個數據庫里,但是就像受到詛咒的巴別塔一樣,這一領域最有希望的兩位學者先后英年早逝[6]。

  專家系統可以看做是理性流派的進一步發展。神經網絡做為感性流派在這一時期雖然沒有專家系統那樣成功,也取得了一些進步。比如神經網絡的架構從以前的輸入層加輸出層的單層結構轉變為添加了中間的隱層。這一變化使得神經網絡可以解決更加復雜的分類問題。

  層數的增加為各個層的神經節點連接的權重選取帶來新的困難。反向傳播算法(backpropagation)的出現在一定程度上解決了權重選取問題。另外計算機運算能力的提高使得多層神經網絡的計算成為可能,在此基礎上分支聯結主義(connectionism)開始流行。通過分布式計算為多層神經網絡提供架構支持成為新的發展方向。

  與感性流派的神經網絡相關的新人工智能(Nouvelle AI)思想也在這一時期出現。持新人工智能觀點的學者認為,人工智能在過去30多年時間里把人類智慧狹義地理解為基于符號處理的智能模型是錯誤的,因為人類獨有的很多智慧是無意識的技能和直覺,并不需要推理。該領域的主要學者莫拉維克(Hans Moravec)舉例說:要讓計算機如成人般地下棋是相對容易的,但是要讓計算機有如一歲小孩般的感知和行動能力卻是相當困難甚至是不可能的[7]。這一觀點不僅認為模擬人腦是研究人工智能的基礎,還進一步認為人工智能的培育和發展需要通過不斷感知外界環境,根據環境做出反應來循序漸進地進行。這一過程中需要的并不是大量的推理,而是對外界信息的大量獲取和快速處理。

  還需要提及的是專家系統及人工神經網絡維度的深化推動了超級計算技術的發展。從這一領域衍生出的計算機集群技術成為20世紀90年代信息領域高科技公司的計算平臺,而這些平臺又成為新一代人工智能技術的硬件基礎。當然人工智能的再度發展還需要一個重要的因素,這一因素到了20世紀90年代才出現,這就是萬維網。

  

  網絡人工智能

  互聯網的前身阿帕網起源于美蘇冷戰。20世紀80年代阿帕網已經通過大學和研究所等機構滲透到民間。1989年歐洲量子物理實驗中心工作的伯納斯李向實驗中心正式提交了一份后來被稱為“萬維網藍圖”的報告[8]。這份報告提出了萬維網框架的運行機制和實施方案。1990 年11 月,他在NeXT工作站上制作了第一個萬維網瀏覽器和第一個網絡服務器,隨后編寫了執行萬維網項目細節的網頁,至此世界上第1個萬維網站誕生。

  1993年1月美國伊利諾大學為瀏覽萬維網網站開發的UNIX 版本馬賽克瀏覽器被放到該大學計算中心的免費FTP服務器上,不到兩個月的時間就被下載了上萬次。1993年12月《紐約時報》商業版頭版介紹了馬賽克,稱其將創造一個全新的產業。馬賽克的流行使得覆蓋互聯網的萬維網成為新的連接世界的平臺,也引發了以硅谷為中心的電子商務革命。1993年1月馬賽克剛出現時,全世界只有50個萬維網服務器,10 月份達到500 個,1994 年6月份增加到1500個,萬維網開始以指數增長。

  在萬維網流行了3年后的1996年,斯坦福2個研究生發現用解n 元一次方程組的辦法,可以把萬維網的所有網頁按照重要性進行排名,從而解決了網絡用戶面對以指數增長的網頁信息進行有效搜索的難題,他們后來成立了谷歌公司[9]。差不多在相同的時間,剛上線一年多的亞馬遜與明尼蘇達大學的幾位計算機專家合作,開始分析每個用戶在其網站上購買的商品,并與其他用戶的購買商品進行比較和關聯,用得到的結果來個性化對網站瀏覽用戶的商品推薦[10]。

  谷歌的佩奇排名(PageRank)和亞馬遜的協同過濾(collaborative filtering)推薦系統的共同特點是它們都通過使用簡單的數學原理來處理海量數據達到目的。這種看似簡單的指導思想解決了很多專家聚集在一起都很難解決的問題。這就是互聯網時代超大規模并行計算所帶來的網絡人工智能的共同特點。

  不同的是,網絡人工智能不再使用昂貴的超級計算機,而是用大量聯結在一起的廉價服務器甚至是個人計算機來取得相同甚至更好的效果。在知識來源上,網絡人工智能往往依靠成千上萬的大眾點滴貢獻(crowdsourcing)而不是專家智慧。比如谷歌在計算網頁的排名時使用的是不同網頁之間的超文本鏈接信息,而這些鏈接是用戶在創建網頁時提供的。亞馬遜的數據來源則是每個用戶購買的商品信息。這些在個人看來再簡單不過的信息被整合到一起進行處理后發揮出巨大的潛力,也使得數據挖掘成為網絡人工智能的流行用語和代名詞。

  網絡人工智能給人類社會帶來的不僅是日常生活的方便,它們在很大程度上開始從各個方面影響社會發展進程。谷歌的搜索結果可以決定一個人的言論被關注的程度,而亞馬遜的推薦則可以把許多質量好但沒能得到推廣的商品推薦給大眾,引出“長尾定律”[11]。

  隨著業務量和數據量的增加,這些網絡平臺不斷擴張,具備越來越強大的存儲和計算能力。谷歌從1999年購買二手服務器開始搭建自己的計算平臺到2012年第一次對外展示谷歌數據中心,其服務器的數量從最初的幾十臺發展到100多萬臺。同一時期亞馬遜的彈性云平臺服務器總量大概在50萬臺左右。電商巨擎的計算平臺不僅僅在單機數量上達到了以往未有的高度,在架構、軟件控制,甚至能耗上與傳統的數據中心相比也有諸多創新(谷歌在這一方面有最多的創新,比如谷歌的單機服務器自攜備用電池,避免了為整個數據中心配備UPS所帶來的額外成本;為了進一步節省空調能源消耗,部分數據中心采取循環水物理蒸發方式降溫等(圖5)。這些技術升級為2010年前后神經網絡在深度學習方向的突破性發展提供了必要的平臺。

  

圖5 谷歌最早采取了數據集裝箱方式來搭建數據中心,幾千臺服務器在生產商處按照標準方式配置到專門設計的集裝箱結構中,再直接運輸到數據中心,這些集裝箱在設計上采用了很多先進的散熱方式,為谷歌節省了大量能耗

  深度學習

  20世紀50年代感知機流行時,霍普金斯大學的住院醫生休伯爾和年輕教授威塞爾結識并成為學術搭檔,開始了后來長達20多年的使他們獲得諾獎的視覺神經方面的研究。1959年他們通過觀察貓腦部視覺中樞對視網膜進入圖像的處理方式發現,有些神經元對不同光強度或者不同角度的斜線有反應,另一些神經元對光感和簡單斜線沒有反應,但是對物體移動具有敏感性,即便這些物體的邊界發生形變也不影響其激發。他們兩人將前一類稱為簡單細胞,后一類稱為復雜細胞。休伯爾和威塞爾的這一發現和后來的研究給從事神經網絡研究的計算機專家提供了重要的建模思路,比如視神經元對信息處理是分工分層進行的,不同神經元關注的對象特征不同,每一層神經元抽象出對象的部分特征進行處理,最后所有信息經過逐層激發,在中樞最高層激發對整個對象產生認知的“祖母神經元”。

  20世紀60、70年代,通過回歸分析來逐層學習和提煉最優的神經網絡層數和節點數的方式出現。烏克蘭數學家伊萬科夫(A. G. Ivakhnenko)及其同事在1971 年發表過8 層神經網絡模型。1979 年日本京都大學福島邦彥(Kunihiko Fukushima)成功通過多層神經網絡(neocognitro)學習進行手寫字母的圖像識別。1992年密歇根州立大學計算機系的翁巨揚提出了最大池化方式(max pooling)和卷積神經網絡(convolution neural net)這一后來被廣為傳播和使用的深度學習算法。

  深度學習能夠在北美走向主流,與被戲稱為“加拿大黑手黨”的3個專注機器學習領域多年的計算機專家的堅持不懈有直接關系。他們是加拿大多倫多大學計算機系的杰弗里·辛頓(Geoffrey Hinton),曾經給辛頓做博士后的紐約大學計算機系教授燕存樂(Yann LeCun)和與燕存樂在貝爾實驗室共同工作過的加拿大蒙特利爾大學教授約書亞·本吉奧(Yoshua Bengio)。

二維碼出入庫管理系統讓倉儲進出庫作業高效低成本化

  辛頓1970年從劍橋心理學專業本科畢業,1978 年從愛丁堡大學獲得人工智能專業博士學位。他畢業時恰好遇到人工智能的第2次高潮,于是投入到神經網絡的研究中。他和燕存樂在1989年將反向傳播算法應用到前饋多層神經網絡學習過程,使得該算法能夠識別出手寫的郵政編碼。不過隨著層度加深,反向傳播算法無法有效地調整神經連接之間的權重,導致過長的學習時間。20世紀80年代末人工智能研究進入低谷,很多同行開始研究別的領域,但是辛頓等卻仍然在這一領域堅持不懈。以至于有很長一段時間,多倫多大學的計算機系里私下流行的對新生的警言是不要去辛頓的實驗室。

  在歐洲學術界多層神經網絡的研究在20 世紀90 年代也取得了一些進展。慕尼黑工業大學的人工智能專家于爾根·施米德休伯(JürgenSchmidhuber)和他的學生團隊在1992年提出的非監督學習時間遞歸神經網絡(recurrent neural net)為語音識別和自然語言翻譯提供了重要的模型。與前饋網絡不同的是,遞歸神經網絡允許各個神經節直接形成環狀循環連接,甚至允許一個神經節點接受自己的輸入,這種架構使得每個節點能夠更好地利用歷史權重,從而更適合處理音頻和文字等序列數據。1997年他們提出了簡化時間遞歸神經網絡的長短期記憶人工時間遞歸神經網絡(LSTM RNN),解決了時間遞歸網絡在學習過程中的誤差消失和放大的問題。

  無論是北美還是歐洲,神經網絡研究在20世紀90年代因為計算能力這一根本性限制均沒能在應用領域取得突破。2004 年機會出現,這一年辛頓從加拿大高等研究所獲得每年50萬美元的經費,在燕存樂和本吉奧的協助下啟動了神經計算和適應感知項目。該項目將一批一流的計算機、生物學、電子工程、神經科學、物理學和心理學專家聚集在一起,共同探討用神經網絡深度學習的方法模擬人腦智能,該項目聚集了一批后來活躍在人工智能領域的專家,除了辛頓、燕樂存和本吉奧外,還有后來負責谷歌大腦計劃的斯坦福計算機系教授吳恩達,以及指導奧巴馬政府“人腦”計劃的諾斯基(TerrySejnowski)。諾斯基在20世紀80年代和辛頓一起發明了波茲曼機。

  有了經費和智慧,辛頓他們很快利用集群計算技術搭配的大計算平臺發現了更優化的算法,早期反向傳播算法難以客服的困難陸續得到解決。用和時間遞歸網絡類似的逐層培訓方式,辛頓等在深度前饋網絡中采取了預培訓方式解決了反向傳播算法的梯度消失問題,用逐層培訓和抽象的方式來有效地降低觀察對象的維度。簡單地說就是將被識別對象的特征(feature)從最底層(例如單個像素)開始通過池化方式逐層抽象收集,后一層把前一層的特征抽取結果做為新的識別對象,用同樣的方法提取其新的特征。這種方式可以采用非監督的自動編碼和解碼的方式來矯正,不需要預先對識別對象進行標注(圖6)。2006年前后這一算法在圖像識別等分類型預測方面取得了突破性。同一時期施米德休伯等人的時間遞歸算法也在圖像識別和語音識別方面取得突破。

  

圖6 卷積神經網絡和最大池化是深度學習的核心設計,復雜的模式通過這種方式被逐層進行特征抽象,最終可以被有效地分析

  2006年深度學習在歐美各地的突破與云計算技術的成熟有直接關系。用辛頓自己在2013年加拿大英屬哥倫比亞大學的一次演講中的話來總結,深度學習以前不成功是因為缺乏3個必要前提:足夠多的數據、足夠強大的計算能力和設定好初始化權重。事實也的確如此。2006年3月亞馬遜正式向外界推出彈性云服務,同年8月谷歌總裁施密特開始使用云計算(cloudcomputing)一詞來區別傳統的“客戶/服務器”模式。隨后微軟等其他公司紛紛步入其后塵,開始向用戶提供類似的云計算服務。大數據和云計算為深度學習算法提供了海量數據和近乎無限的計算能力,打破了這兩個限制人工智能發展的主要瓶頸。值得一提的是GPU的出現加速了深度學習的數據處理速度。與只擁有少量內核的CPU 相比,GPU擁有上百個內核,可以同時處理上千個指令相同的線程。這意味著對神經網絡的權重計算這種高度一致的重復并行計算工作,GPU的處理效率有可能達到普通CPU 的幾十倍,從而可以高速有效地進行各種模式識別計算。

  最早將深度學習引入語音識別的是微軟。2009年圣誕前夕微軟研究院在加拿大召開了一個小型學術會議,邀請辛頓介紹深度學習的研究成果。辛頓的算法并沒有引起大多數與會專家的重視,但是微軟的兩個與會代表鄧立和俞棟卻在會后組織了人員和數據進行了測試,結果發現非監督的深度學習算法可以使得語音識別的準確率提升25%,遠超5%的業界期望值。于是微軟開始將這一算法通過不斷優化應用到語音識別的各類產品和服務中。圖7為2012年10月微軟首席研究官拉希德(Rick Rashid)在天津21世紀的計算大會”上公開演示的后來一時熱透中國互聯網的全自動同聲傳譯系統(錯誤率僅為7%)的視頻(圖7)。

  

圖7 2012 年10 月微軟首席研究官拉希德(Rick Rashid)在天津召開的“21 世紀的計算大會”上公開演示全自動同聲傳譯系統(錯誤率僅為7%)

  微軟在語音技術上的突破暗示出如果給予深度學習足夠多的數據和計算資源,后者有可能從事更加復雜的圖像識別工作。顯然互聯網上充足的數據資源為這一想法提供了重要的實驗平臺。2007 年斯坦福大學的李飛飛和普林斯頓大學的李凱合作開發了ImageNet 項目(圖8)。

  

圖8 李飛飛在TED 上講述ImageNet (How we're teaching computers to understand pictures),ImageNet 目前以開源形式為各種深度學習算法的測試和比賽提供數據支持

  該項目團隊從互聯網上下載了10億多圖片,然后通過亞馬遜機械土耳其人這一低成本網絡眾包的方式,雇傭了來自167 個國家共5萬多人對這些圖片進行了分類標注。截止2009年該項目成功產生了一個包含22000不同門類,共1500萬圖片的帶標簽的數據庫。該數據庫里的圖片分類和標簽質量超過以往任何數據庫,其中僅貓這一門類就有62000張不同的圖片,包含了所有種類的馴養和野生貓。建成這一數據庫后,李飛飛及其團隊利用深度學習方法,使得計算機通過監督學習方式識別包含各種物體的圖像,而且能夠用自然語言生成對每個圖像中的物體關系的簡單描述。這一成果進一步引發了學術界和科技界對深度學習的關注。

  ImageNet 項目主要為監督學習方式提供了數據標簽支持,但是標簽圖片與整個互聯網的所有圖片數量相比,仍然是九牛一毛。絕大多數數據仍然是以無標簽形式存在的。更重要的是人腦尤其是嬰兒大腦的發育過程是以標簽方式進行的。所以無監督學習和讓神經網絡自我學習成為另一個研究方向。

  2011 年谷歌的迪恩(Jeff Dean)和斯坦福計算機系的吳恩達在未來技術實驗中心(Google X)聯合發起了“谷歌大腦”研究計劃。該計劃通過模擬新生嬰兒的大腦發育環境來研究人腦的物體識別和語言認知等功能。他們利用谷歌的云計算平臺搭建了一個配備16000個CPU和10億突觸神經連接的谷歌大腦計算平臺(1年后斯坦福大學和英偉達合作只用了16臺配備GPU的服務器,每臺配備2個8核CPU和4個英偉達GeForce GTX 680GPU,就達到了同樣的計算效果)。為了收集有效的能夠表征人類生活環境的數據,他們從谷歌YouTube隨機選取了1000萬個視屏,從每個視頻里隨即獲取一個200×200像素的截屏,相當于模擬嬰兒用眼睛不斷觀察到的周圍環境。

  數據收集完成后,他們用辛頓2006年提出的深度學習分層訓練模型和自我編碼解碼校驗方式去自動對這1000 萬張圖片進行特征抽取和分析。這一項目的目標之一是查看該模型的分層抽象特征提取方式是否能夠最終產生一批高度異化的“祖母神經元”。結果該實驗不但發現了模擬狀態的祖母神經元的存在,而且在抽象最高層形成物體判斷的神經元中居然有一只是對應貓的面部圖像(圖9),也就是說通過深度學習,該人工大腦形成了對貓的印象(古希臘哲學家柏拉圖和其學生亞里士多德在人對客觀世界的不同對象的概念形成中到底是先有絕對主觀存在還是從客觀形成有意見分歧。從谷歌的大腦實驗來看,亞里士多德的客觀形成論得到了驗證)。

圖9 這是谷歌大腦用深度學習方式分析了成千上萬張貓的圖片后形成的對貓的“記憶”

  除了辛頓等在深度學習領域成果頻出外,2010 年以后在瑞士人工智能實驗室(IDSIA)擔任主任的施米德休伯和他的學生們也不斷取得突破。他們利用長短記憶時間遞歸神經網絡識別序列信息的優勢在各種圖像識別比賽中奪魁,其中包括德國的交通標志自動識別比賽、國際漢字、阿拉伯文等手寫體識別比賽。2010年他的3個博士生創立了深思(DeepMind)公司,根據深度學習理論和對數據流的研究開發出了能夠像人一樣通過觀察普通人玩街機游戲的畫面來了解游戲規則,再通過學習的規則去玩同樣的游戲,甚至擊敗人類對手。2014該公司被谷歌以5億美元收購。2016年3月,該團隊設計的AlphaGo圍棋對抗程序以4勝1負的戰績擊敗了人類圍棋冠軍李世乭。

  在目前這輪以深度學習為代表的人工智能新高潮里,企業界早已通過收購和人才獵取而投入了大量的資本。谷歌董事長施密特公開表示機器學習是谷歌目前最主要的工作。2013年谷歌通過收購辛頓的DNNresearch 公司,將包括辛頓和他的幾個學生在內的一批人才收攬在旗下。隨后谷歌又在2015年收購了DeepMind公司,把歐洲的深度學習專家收攏到谷歌旗下。Facebook創始人扎克伯格在讀完深度學習的論文后,從紐約大學高薪聘走了燕存樂。亞馬遜資助西雅圖的華盛頓大學計算機系從卡梅挖來了蓋斯成(Carlos Guestrin)夫婦,后者與亞馬遜合作開發機器學習項目。而在這之前,谷歌從該系挖走了7 名計算機系教授。斯坦福大學的吳恩達則被百度從谷歌挖走,成為硅谷百度研究院的首席研究員。

  這些投入會不會最終仍然以泡沫破裂收場?答案很有可能是肯定的。

  智能與超越

  2014 年牛津大學的博斯特倫(NickBostrom)在《超級人工智能:路徑,危險和策略》一書里提出,人工智能技術很可能在不久的將來孕育出在認知方面全面超越人類的超級智能(super intelligence)。他認為超級智能在給人類社會帶來好處的同時也造成了人類本身的生存危機(existentialrisk)。2015年1月包括物理學家霍金、企業家馬斯克等在內的主要來自歐洲的科學和科技界精英聯名發表了一封公開信,敦促業界關注人工智能發展的穩健性和風險控制,通過合作和共識形成一個控制人工智能發展方向的框架,該公開信內容和所有簽署人名單見https://futureoflife.org/AI/open_letter。

  博斯特倫提出的超級智能可以追溯到馮諾依曼在1958 年的奇點(Singularity)預測。馮諾依曼認為隨著計算機技術的不斷發展,終有一天計算機將能夠自我設計,從而進入自我進化狀態。一旦進入到這一奇點狀態,人類智能將與計算機智能迅速拉開差距,前者將逐漸被后者取代。

  盡管這些學術界和產業界的名人表示了憂慮,但人類對大腦的研究,尤其是什么是智能的認識卻仍然處在初級階段。從目前人工智能的發展水平來看,筆者認為這種對機器本身所帶來的威脅的擔憂是沒有任何必要的,真正需要防范的是強勢集團對人工智能技術的濫用。

  首先,從計算機的計算能力來進行一下比較。根據目前對人腦的最新認識,人的大腦皮層共有大約860億神經元,能夠進行200 MB/s 并行運算。新生嬰兒大腦皮層每個神經元有大約2500個突觸,2、3歲時增加到15000個,達到峰值。成年后每個神經元的突觸數量大約為7500個。相比之下,2012年設計的谷歌大腦的總共16000 個CPU神經元和10億突觸,遠遠低于人腦的復雜度。事實上就算把谷歌計算平臺所擁有的全部服務器(總數量為幾百萬臺)用于大腦認知模擬,也難以達到一個普通人腦的神經元的數量和關聯度。

  其次,對人腦智能的機制理解仍然處于一個初級階段。比如德萊弗斯(Hubert Dreyfus)提出人腦主要是通過圖像來思考的,這一現象背后的機制是什么?當把一個小箱子放到一個大箱子上,然后把下面的大箱子取走,這時小箱子會怎樣?普通人通過大腦的圖像預演可以很簡單地回答這一問題,而理性流派的人工智能往往需要通過大量的事實積累和邏輯推理才能做出這一推論。以感性流派為理念的深度學習神經網絡雖然有可能通過模式識別實現這一推理,但目前來看還沒有在這方面邁出一步。

  奔邁公司的創始人霍金斯的HTM理論就這一現象給出了比較有意思的理論框架[12]。該理論認為大腦皮層通過不斷接收序列信息(sequenceinformation)來學習建立外部世界的感知-動作模型(sensory-motor model)的器官,通過接收—預測—反饋—調整再接收這一過程來調整記憶。對于大量涌入的序列數據(比如聲音和動作),大腦皮層是通過稀疏分布的表達方式層層激發處理信息。信息激發到祖母神經元后根據以前記憶形成的預期開始向下激發相應的各種感知和動作神經元,這些預期與新的信息進行對比后,針對出現的偏差,相應的神經元會做出新的突觸連接調整。遺憾的是在實際應用方面,根據該理論開發出的軟件還沒能取得突破性進展。

  最后,涉及一個比較抽象的哲學問題,就是什么是人的智能。60年前圖靈用圖靈測試來避免回答這一問題。今天對智能的認識可能也無法給出滿意的答案。目前流行的深度學習只是人認知能力的增強版,就像汽車和飛機雖然比人速度快,但不能認為汽車或者飛機具有意識或者它們的運動智能超越了人類。

  美國計算機和未來學家庫茲韋爾(Ray Kurzweil)在2005 年的《奇點已近》一書認為,人的智能其實就是人腦的神經連接狀態[13],他提出未來技術成熟后,可以通過釋放足夠多的納米機器人到人體內,獲得大腦神經元之間的每一個鏈接的各種生化指數,從而復制人的意識。這些納米機器人可以不斷監控腦神經的變化,從而在身體外部不斷備份人的意識。像很多前人科學家一樣,筆者認為庫茲韋爾陷入了用人類可以理解的技術來解釋人類智能和意識的陷阱。

  最近10年很多科學研究發現自然界的各種生物現象與量子糾纏有密切關系,比如光合作用和候鳥遷徙[14,15]。人的智能和意識是否也與此有關,只有等對這一現象有了更深刻的認識后才能知道。

  參考文獻(略)

(責任編輯 劉志遠)

  人工智能學家 Aitists

人工智能學家是權威的前沿科技媒體和研究機構,2016年2月成立人工智能與互聯網進化實驗室(AIE Lab),重點研究互聯網,人工智能,腦科學,虛擬現實,機器人,移動互聯網等領域的未來發展趨勢和重大科學問題。

  長按上方二維碼關注微信號 Aitists

  投稿郵箱:post@aitists.com

歡迎點擊文章右下角”閱讀原文“進行報名登記

我們將及時與您聯系。

轉載請注明來自夕逆IT,本文標題:《二維碼出入庫管理系統讓倉儲進出庫作業高效低成本化》

每一天,每一秒,你所做的決定都會改變你的人生!

發表評論

快捷回復:

評論列表 (暫無評論,6人圍觀)參與討論

還沒有評論,來說兩句吧...