1 新智元編譯
來源:YouTube
譯者:李靜怡
今天是2016年9月14日
AI WORLD 2016世界人工智能大會倒計時33天
啟航期5折搶票倒計時3天
【新智元導讀】LeCun 受 SoftBank Robotics Europe 邀請發表的演講《深度學習和人工智能的未來》。LeCun 介紹了卷積神經網絡(CNN),以及記憶增強網絡能夠在預測的基礎上進行推理、注意力以及陳述性記憶。LeCun 還介紹了深度學習系統在 Facebook 的部署,比如視頻和圖像采集、內容過濾以及人臉識別,還有語言翻譯。LeCun 在談到了人工智能的未來時強調了非監督學習的重要性,介紹了生成對抗網絡的應用。本文開始是LeCun演講后的問答環節的內容整理。
Q&A
這個問題有關演講中的 wordtovec,你說語義能夠聯系到矢量上,這是在很大的語料庫上訓練的嗎?組成成本都是什么?
一般都是在很大的詞匯庫上訓練,你可以使用維基百科,也可以使用Reddit上面的詞匯,里面有咒罵、縮寫,還有拼錯的單詞。不過,也有另一種研究方向,第一層是一個查找表,將向量指向詞匯表中的每個單詞,就像矩陣一樣。這個的論文是谷歌大腦的團隊做的,第一作者是Oriol Vinyals,訓練語言模型預測接下來的詞匯是什么,比較好的表現是在字符水平上的預測,前面幾層都是卷積層。預測精度很高,在語言模型中這叫做混淆度很低。
在機器學中,如何解決多模式數據的問題?
以前有這個問題,現在,你建一個神經網絡,用多個通道接收輸入就好了。當然,如果有一部分數據缺失的話,你就需要將那部分補全,你可以使用 droopout 算法。你訓練好一個網絡后,隨機去掉部分輸入,然后看網絡是否還能穩定輸出。舉例來說,你可以建立預測模型,預測只有音頻數據的時候,視頻數據是什么,或者反過來。這也就是我剛才說的你可以做的預測模型。音頻和視頻信息不一致也正好說明了一種現象,那就是人在判斷一個音符是什么的時候,實際上是通過視覺信息來判斷的,準確地說,是通過口型。通過聽,你能分辨出 ga 和 ba 的區別,但是當一個人發“ga”的音時,如果顯示的是一個有著“ba”口型的畫面,那么你會誤以為說話的人在發“ba”的聲音。
在演講中你提到了生成臥室的圖片。算法是如何知道在哪里生成床、哪里生成窗?為什么床不是藍色的,因為實際上床有可能是任何顏色的?
生成臥室圖片的網絡是一個 De-convolutional Net,這種網絡與卷積網絡一樣,除了所有的神經元都被反了過來,輸入成了一堆數字,而輸出則是圖像。因此,輸入是一堆隨機的數據,要么經過統一選樣,要么經過高斯分布。網絡會生成一個圖像,對抗網絡則會判斷這幅圖像與真實圖像之間的差距,于是系統會調整參數,直到生成的圖像與真實的臥室圖像對于對抗網絡的判別器而言沒有差別。其中的一些參數,比如床鋪的顏色是什么,距離窗戶多遠、光照怎么樣……這些對于系統而言都沒有意義,它關心的只是在數據庫的基礎上訓練網絡,得到區分不出來的圖像。
我的問題與自然語言理解有關。要讓機器人理解人話就必須要讓機器人擁有自然語言理解能力。你剛剛在演講中提到了“Non-teaching”算法,是不是就解決了這個問題?如果沒有解決的話,目前缺少的是什么呢?
建立對話系統,讓機器人在人類跟它們說話后作出回應,是目前十分活躍的一個研究領域。現在世界上還沒有人解決了這一個問題。眼下有很多對話系統,比如觀察人的對話,或者預測下一個詞是什么。有時候這很有趣,微軟訓練了一個對話機器人,我不是說 Tay,而是在中國的小冰。有很多中國人跟小冰對話,訓練得很好。然后微軟想在美國再現這個情況,也就是 Tay,不出 24 小時就成了種族主義者,這體現了中美的文化差異。實際上,單純通過對話讓系統學習做一件事情是十分困難的,目前還沒有人做到。我們可以訓練系統進行對話是可能的,比如 Siri、Cortana、Google Now,但是要讓它們學會東西還有很大的挑戰。在 Facebook 有一個項目 M,讓人類接線員通過 M 工作,看看是否 AI 能夠接管,不要人的干預。結果發現這件事十分難,尤其是當對話內容很開放的時候。不過,但對話內容比較窄,比如談論電影、餐廳……那么這件事情也并非完全不可能。因此還是有希望的。
在演講中你有很多系統是一開始離線訓練的,然后再上線。你是如何決定什么時候可以把系統放在網絡上?
是的,有一些項目是先在線下訓練,然后在放到網上。不過,也有很多項目是一開始就放在網上的。例如 Facebook 的推薦系統,每天有大量的圖片上傳到 Facebook 的網絡,系統不可能把這些圖片全部都推送給你。有些人喜歡沖浪,那么系統可能就會從中選擇與沖浪有關的圖片,或者與貓有關的圖片——有的人很喜歡貓,我個人對貓的圖片并不是那么感冒——或許你喜歡貓的圖片……總之,像這樣的系統,關于你喜歡什么的模型,是時刻都在更新的,每時每刻都在學習,越聚越多。
Yann LeCun:深度學習和人工智能的未來
150 PPT 全文
如需下載全文,請在新智元訂閱號回復 0916下載。
深度學習
作者Yann Le Cun
紐約大學,柯朗數學科學學院(CourantInstitute of Mathematical Science, NYU),
Facebook 人工智能研究
我們需要復制大腦來開發智能機器嗎?
大腦是智能機器存在的依據
-鳥和蝙蝠是重于空氣飛行存在的依據
大腦
今天高速處理器
我們能夠通過復制大腦來開發人工智能系統嗎?
電腦離大腦運算能力只有1萬次方差距嗎?很有可能是100萬次方:突觸是復雜的。1百萬次方是30年摩爾定律
最好從生物學里獲取靈感;但是如果沒有了解基本原理,僅從生物學里生搬硬造,注定要失敗。飛機是從飛鳥那里獲取的靈感;他們使用了同樣的飛行基本原理;但是,飛機并不振翅飛翔,也沒有羽翼。
讓我們從自然里汲取靈感,但不需要依葫蘆畫瓢
模仿自然是好的,但是我們也需要去了解自然。對于飛機而言,我們開發了空氣動力學以及可壓縮流體動力學,我們知道了羽毛和振翅不是關鍵。
1957年:感知機(第一臺學習機器)
具有適應性“突觸權重”的一個簡單的模擬神經元,計算輸入的加權總和,如果加權總和高于閾值,則輸出+1,反之則輸出-1。
感知機學習算法
通常的機器學習(監督學習)
設計一臺帶有可調節旋鈕的機器(與感知機里的權重類似);選取一個訓練樣本,經機器運行之后,測量誤差;找出需要調整那個方向的旋鈕以便降低誤差;重復使用所有訓練樣本來進行操作,直到旋鈕穩定下來。
通常的機器學習(監督學習)
設計一臺帶有可調節旋鈕的機器;選取一個訓練樣本,經機器運行之后,測量誤差;調節旋鈕以便降低誤差;不斷重復直到旋鈕穩定下來;
機器學習=功能優化
這就如同行走在霧氣彌漫的高山之中,通過往最陡的下坡方向行走來抵達山谷中的村莊;但是每一個樣本會給我們一個方向的噪聲預估,因此,我們的路徑是相當隨機的。
泛化能力:識別訓練中沒有察覺到的情況
訓練之后:用從未識別過的樣本來測試機器;
監督學習
我們能夠用諸如桌子、椅子、狗、貓及人等很多例子來訓練機器;但是機器能夠識別它從未看到過的桌子、椅子、狗、貓及人嗎?
大規模的機器學習:現實
數以億計的“旋鈕”(或“權重”),數以千計的種類;數以百萬計的樣本;識別每一個樣本可能需要進行數十億的操作;但是這些操作只是一些簡單的乘法和加法。
模式識別的傳統模式
模式識別的傳統模式(自50年代末開始),固定/設計特征(或固定矩陣)+可訓練的分級器,感知機(康奈爾大學,1957年)
深度學習=整臺機器是可以訓練的
傳統的模式識別:固定及手工制的特征萃取器;主流的現代化模式識別:無監督的中等級別特征;深度學習:表現形式是分等級的及訓練有素的;
深度學習=學習分等級的表現形式
有超過一個階段的非線性特征變換即為深度學習;在ImageNet上的特征可視化的卷積碼凈訓練[來自蔡勒與宏泰2013(Zeiler & Fergus 2013)]
可訓練的特征等級
隨著抽象等級的增加,表現形式等級的增加;每一個階段是一種可訓練特征的轉換;圖像識別:
像素→邊緣→紋理基元→主題→
部分→對象
字符→字→字組→從句→句子→故事
言語
例子→光譜段→聲音→... →電話→音素→字
淺度vs深度==查找表VS多步算法
“淺與寬”vs“深與窄”==“更多的內存”與“更多的時間”,查找表vs 算法;如果沒有一個指數大級別的查找表,幾乎很少有函數可以用兩步計算完成;通過指數系數,可以通過超過兩步運算來減少“存儲量”。
大腦如何解讀圖像?
在視覺皮層的腹側(識別)通路包含多個階段;視網膜- LGN - V1 - V2 - V4 - PIT - AIT....等等;
多層的神經網絡
多層的神經網絡
簡單單位的多層級;每個單位計算一次輸入的加權總和;加權總和通過一個非線性函數;學習算法改變權重;
典型的多層神經網路架構
可以通過在網路中裝配模塊來發明復雜的學習機器;
線性模塊
輸出=W.輸入+B
ReLU 模塊(經校正過的線性單元)
輸出i=0 如果輸入i<0;
輸出i=輸入,如果其他情況;
成本模塊:平方距離
成本=||In1-In2||2
目標函數
L(Θ)=1/pΣk C(Xk,Yk,Θ)
Θ=(W1,B1,W2,B2,W3,B3)
通過裝配模塊來搭建網路
所有主要深度學習框架使用模塊(靈感源自SN/Lush, 1991),火炬7(Torch7), Theano, TensorFlow….
通過反向傳遞來計算斜率
鏈式法則的實際應用
推倒代數的斜率:
● dC/dXi-1 = dC/dXi . dXi/dXi-1
● dC/dXi-1 = dC/dXi . dFi(Xi-1,Wi)/dXi-1
推倒權重斜率:
● dC/dWi = dC/dXi . dXi/dWi
● dC/dWi = dC/dXi . dFi(Xi-1,Wi)/dWi
任何架構都可以工作?
允許任何的連接圖;
無回路有向圖
循環的網絡需要“在時間上展開”
允許任何的模塊
只要對于相應的參數及其他非終端輸入是連續的,并且在幾乎所有位置都可以進行求倒。
幾乎所有的架構都提供自動求導功能;
Theano, Torch7+autograd,...
程序變成計算無回路有向圖(DAGs)及自動求道
多層網絡的目標函數是非凸性的。
1-1-1網絡
– Y = W1*W2*X
目標函數:二次損失的恒等函數
一個例子:X=1,Y=1 L(W) = (1-W1*W2)^2
卷積網絡
(簡稱ConvNet或 CNN)
卷積網絡架構
多卷積
動畫:安德烈 .卡帕斯(Andrej Karpathy)網址:https://cs231n.github.io/convolutional-networks/
卷積性網絡(制造年代:1990年)
過濾器-tanh →匯總→過濾器-tanh →匯總→過濾器-tanh
胡貝爾和威塞爾(Hubel & Wiesel)的視覺皮層結構模型
簡單單元格用于檢測局部特征,復雜單元格用于“匯總”位于視皮層附近的簡單單元格輸出產物,[福島(Fukushima)1982年][LeCun 1989, 1998年],[Riesenhuber 1999年]等等
總體架構:多步奏標準化→過濾器集→非線性→匯總
標準化:白度變化(自由選擇)
減法:平均去除率,高通過濾器
除法:局部標準化,標準方差
過濾器庫:維度擴大,映射到超完備基數
非線性:稀疏化,飽和度,側抑制機制等等
改正(ReLU),有效分量的減少,tanh,
匯總:空間或功能類別的集合
1993年LeNet1演示
多字符識別[馬坦等(Matan et al),1992年]
每一層是一個卷積
ConvNet滑動窗口+加權有限狀態機
ConvNet滑動窗口+加權FSM
支票讀取器(貝爾實驗室,1995年)
圖像轉換器網絡經訓練后讀取支票金額,用負對數似然損失來進行全面化訓練。50%正確,49%拒絕,1%誤差(在后面的過程中可以檢測到)1996年開始在美國和歐洲的許多銀行中使用,在2000年代初處理了美國約10%到20%的手寫支票。
人臉檢測[威能(Vaillantet al.)等。93、94年]
ConvNet被用于大圖像處理,多尺寸熱圖,候選者非最大化抑制,對256x256 圖像SPARCstation需要6秒時間
同步化人臉檢測及姿態預估
卷積網絡行人檢測
場景解析及標注
場景解析及標注:多尺度ConvNet架構
每個輸出可以看到大量的輸入背景,對全方位標注的的圖像進行訓練監督
方法1:在超像素區域進行多數表決
對RGB及深度圖像的場景解析及標注
場景解析及標注
無后期處理,一幀一幀,ConvNet在Virtex-6 FPGA 硬件上以每幀50毫秒運行,通過以太網上進行通信的功能限制了系統性能
ConvNet用于遠距離自適應機器人視覺(DARPA LAGR 項目2005-2008年)
卷機網遠距離視覺
預處理(125毫秒),地平面估計,地平線對準,轉換為YUV+局部對比標準化,測量標準化后圖像“帶”不變量金字塔
卷積網絡架構
每3x12x25輸入窗口100個特征;YUV圖像帶20-36像素高,36-500像素寬
卷機網絡視覺物體識別
在2000年代中期,ConvNets在物體分類方面取得了相當好的成績,數據集:“Caltech101”:101個類別,每個類別30個訓練樣本,但是結果比更“傳統”的計算機視覺方法要稍微遜色一些,原因是:
1. 數據集太小了;
2. 電腦太慢了;
然后,兩件事情發生了。。。
圖像網絡(ImageNet)數據集[Fei-Fei等,2012年]
120萬訓練樣本
1000個類別
快速及可編程通用目的GPUs
每秒可進行1萬億操作
極深度的ConvNet物體識別
1億到10億個連接,1000萬至10億個參數,8至20個分層
在GPU上進行極深度的ConvNets訓練
ImageNet前5大錯誤概率是
15%;
[Sermanet等2013年]
13.8%VGGNet [Simonyan, Zisserman 2014年]
7.3%
GoogLeNet[Szegedy等 2014年]
6.6%
ResNet [He et等2015年]
5.7%
極深度的ConvNet架構
小矩陣,沒有進行太多二次抽樣過程(斷片化二次抽樣)
矩陣:第一層(11x11)
第一層:3×9矩陣,RGB->96的特征圖,11×11矩陣,4步
學習在行動
第一層過濾器如何學習?
深度學習=學習層次代表
具有超過一個階段的非線性特征變換即為深度,ImageNet上特征可視化卷積網絡學習 [蔡勒與宏泰2013年(Zeiler & Fergus)]
ImageNet:分類
給圖像中的主要對象取名,前5誤差率:如果誤差不是在前5,則視為錯誤。紅色:ConvNet,藍色:不是ConvNet
ConvNets對象識別及定位
分類+定位:多尺度滑動窗口
在圖像上應用convnet滑動窗口來進行多尺度的重要備;在圖像上滑動convnet是很便宜的。對于每一個窗口,預測一個分類及邊框參數。即使對象沒有完全在視窗內,convnet可以預測它所認為的對象是什么。
結果:在ImageNet1K訓練前,微調的ImageNet檢測
Detection Example:檢測例子
Detection Example:檢測例子
Detection Example:檢測例子
深度面孔
[塞利格曼等(Taigman et al.) CVPR,2014年]
調準ConvNet矩陣學習
Facebook上使用自動標注
每天800萬張照片
矩陣學習與暹羅架構
Contrative目標函數,相似的對象應產出相距較近輸出產物,不相似對象應產出相距較遠輸出產物,通過學習和恒定的定位來減少維度,[喬普拉等,CVPR2005年][Hadsell等,CVPR2006年]
人物識別與姿勢預測
圖像說明:生成描述性句子
C3D:3D ConvNet視頻分類
分割與局部化對象(DeepMask)
[Pinheiro, Collobert, Dollar ICCV 2015年]
ConvNet生成物件面部模型
DeepMask++ 建議
識別路線
訓練
通過8x4開普勒(Kepler)GPUs與彈性平均隨機梯度下降算法(EASGD)運行2.5天后[張, Choromanska, LeCun,NIPS2015年]
結果
監控下的ConvNets制圖
使用ConvNets產生圖像
監控下的ConvNets制圖
繪制椅子,在特征空間的椅子算法
ConvNets語音識別
語音識別與卷積網絡(紐約大學/IBM)
聲學模型:7層ConvNet。5440萬參數。
把聲音信號轉化為3000個相互關連的次音位類別
ReLU單位+脫離上一層級
經過GPU 4日訓練
語音識別與卷積網絡(紐約大學/IBM)
訓練樣本。
40 Mel頻率倒譜系數視窗:每10微秒40幀
語音識別與卷積網絡(紐約大學/IBM)
第一層卷積矩陣,9x9尺寸64矩陣
語音識別與卷積網絡(紐約大學/IBM)
多語言識別,多尺度輸入,大范圍視窗
ConvNets無處不在(或即將無處不在)
ConvNet芯片
目前NVIDIA,英特爾(Intel), Teradeep,Mobileye, 高通(Qualcomm)及三星(Samsung)正在開發ConvNet 芯片
很多初創公司:Movidius, Nervana等
在不久的將來,ConvNet將會駕駛汽車
NVIDIA:基于ConvNet技術的駕駛員輔助系統
驅動-PX2(Drive-PX2):駕駛員輔助系統的開源平臺( =150 Macbook Pros)
嵌入式超級計算機:42TOPS(=150臺MacBook Pro)
MobilEye:基于ConvNet技術的駕駛員輔助系統
配置于特斯拉(Tesla)S型和X型產品中
ConvNet連接組學[Jain, Turaga, Seung,2007年]
3DConvNet體積圖像,使用7x7x7相鄰體素來將每一個體素標注為“膜狀物”或“非膜狀物”,已經成為連接組學的標準方法
腦部腫瘤檢測
級聯輸入CNN架構,802,368 個參數,用30位患者來進行訓練,BRAT2013上顯示的結果狀況
預測DNA/ RNA - ConvNets蛋白質結合
“通過深度學習預測DNA- 與RNA-結合的蛋白質序列特異性”-2015年7月,自然生物技術,作者:B Alipanahi, A Delong, M Weirauch, BFrey
深度學習無處不在(ConvNets無處不在)
在臉書(Facebook)、谷歌(Google)、微軟(Microsoft)、百度、推特(Twitter)及IBM等上的許多應用程序。
為照片集搜索的圖像識別
圖片/視頻內容過濾:垃圾,裸露和暴力。
搜索及新聞源排名
人們每天上傳8億張圖片到臉書(Facebook)上面
(如果我們把Instagram,Messenger and Whatsapp計算在內,就是每天20億張圖片)
臉書(Facebook)上的每一張照片每隔2秒就通過兩個ConvNets
一個是圖像識別及標注;
另一個是面部識別(在歐洲尚未激活)
在不久的將來ConvNets將會無處不在:
自動駕駛汽車,醫療成像,增強現實技術,移動設備,智能相機,機器人,玩具等等。
嵌入的世界
思考的向量
“鄰居的狗薩摩耶犬看起來好像西伯利亞哈士奇犬”
嵌入的世界
iNSTAGRAM 嵌入視頻
用“思考的向量”來代表世界
任何一個物件、概念或“想法”都可以用一個向量來代表
[-0.2, 0.3, -4.2, 5.1, …..]代表“貓”的概念
[-0.2, 0.4, -4.0, 5.1, …..]代表“狗”的概念
這兩個向量是十分相似的,因為貓和狗用許多共同的屬性
加入推理來操控思考向量
對問題、回答、信息提取及內容過濾的向量進行比較
通過結合及轉化向量來進行推理、規劃及語言翻譯
內存存儲思考向量
MemNN (記憶神經網絡)是一個很好的例子
在FAIR, 我們想要“把世界嵌入”思考向量中來
自然語言理解
文字能嵌入嗎?
[Bengio2003年] [Collobert與韋斯頓(Weston),2010年]
通過前后的文字來對該文字進行預測
語義屬性的合成
東京-日本=柏林-德國
東京-日本+德國=柏林
問答系統
問答系統
問答系統
LSTM網絡的語言翻譯
多層次極大LSTM遞歸模塊
讀入及編碼英語句子
在英文句末生成法語句子
與現有技術狀態的準確率極其相若
神經網絡如何記憶事物?
遞歸網絡不可以長久記憶事物
皮質只可以持續20秒記憶事物
我們需要“海馬”(一個獨立的記憶模塊)
LSTM [Hochreiter 1997年],寄存器
存儲網絡[韋斯頓(Weston)等,2014年](FAIR),聯想記憶
堆疊增強遞歸神經網絡[Joulin與Mikolov,2014年](FAIR)
NTM [DeepMind,2014年], “磁帶”.
存儲/堆疊增強遞歸網絡
堆疊增強RNN
弱監控MemNN:
尋找可使用的存儲位置。
內存網絡[韋斯頓(Weston),喬普拉( Chopra),博爾德(Bordes ),2014年]
在網絡中加入短期內存
通往人工智能的障礙物
(除計算能力以外),人工智能的四項缺失部分
理論的深度認知學習
深度網絡中的目標函數幾何學是什么?
為何ConvNet架構這么好?[(馬拉)Mallat, 布魯納(Bruna), Tygert..]
代表/深度學習與推理、注意力、規劃及記憶的整合
很多研究集中在推理/規劃,注意力,記憶力及學習“算法”
內存增強的神經網絡“可求導的”算法
將監控、非監控及強化學習整合在單一的“算法”內
如果進展順利,波爾茲曼機將會十分有用處。
堆疊的什么-哪里自動編碼器,梯形網絡等
通過觀察及像動物及人類生活一樣來發現世界的結構及規律。
神秘的目標函數幾何學
深度網絡與ReLUs及最大匯總
線性轉換存儲棧最大離散操作器
ReLUs點位方法
最大匯總
從一層到另一層開關
深度網絡與ReLUs:目標函數是分段多項式函數
如果我們使用損失函數,增量則取決于Yk。
隨機系數的在w上的分段多項式
a lot:多項式的臨界點位隨機(高斯)系數在球面的分布[本阿魯斯等(Ben Arous et al.)]
高階球面自旋玻璃隨機矩陣理論
隨機矩陣理論
深度網絡與ReLUs:目標函數是分段多項式函數
從多個初始條件中訓練按比例縮小的(10x10)MNIST 2層網路。測量測試集的損失值。
強化學習,監督學習、無監督學習:學習的三種類型
學習的三種類型
強化學習
機器偶爾會對標量效果進行預測
樣本的一部分字節
監控學習
機器預測每個輸入的種類或數量
每個樣本10到1萬位
非監控學習
機器對任何輸入部分及任何可觀察部分進行預測
在視頻中預測未來鏡頭
每個樣本有數以百萬計的字節
機器需要預測多少信息?
強化學習(車厘子)
機器偶爾會對標量效果進行預測
樣本的一部分字節
監控學習(糖衣)
機器預測每個輸入的種類或數量
每個樣本10到1萬個字節
無監督學習(蛋糕)
機器對任何輸入部分及任何可觀察部分進行預測
在視頻中預測未來鏡頭
每個樣本有數以百萬計的字節
無監督學習是人工智能的“黑箱”
基本所有動物及人類進行的學習都是無監督學習。
我們通過觀察了解世界的運作;
我們學習的世界是三維立體的
我們知道物體間可以獨立運動;
我們知道物體的恒久性
我們學習如何預測從現在開始一秒或一小時后的世界
我們通過預測性非監控學習來構建世界模型
這樣的預測模型讓我們有了“常識”的認知
無監督學習讓我們了解到世界的規律。
通過非監控學習而得到的常識
通過對世界預測模型的學習讓我們掌握了常識;
如果我們說:”Gérard拿起包離開房間”, 你能夠推測出:
Gérard起立,伸展手臂,向門口走去,打開門,走出去。
他以及他的包已經不會在房間里
他不可能消失或飛了出去
非監控學習
以能量為基礎的非監控學習
能量函數:取數據流的最低值,取其他地方的最高值
如果是所需能量輸出,則向下按;
其他情況,則向上按;
生成對抗的網絡
拉普拉斯(Laplacian) GAN:拉埃甘(又名EYESCREAM)
學習生成圖像[丹頓等人(Denton et al.),NIPS2015年]
發生器產出拉普拉斯金字塔系數代表的圖像
鑒別器學習如何區分真假拉普拉斯圖像。
“EyeScream”
“EyeScream”/“LAPGAN”
發現規律
DCGAN:通過對抗訓練來生成圖像
[雷德福(Radford),梅斯(Metz),Chintala, 2015年]
輸入:隨機數字;
輸出:臥室
導航流
DCGAN:通過對抗訓練來生成圖像
用漫畫人物來訓練
人物之間的插入
面部代數(在DCGAN空間)
DCGAN:通過對抗訓練來生成圖像
[雷德福(Radford),梅斯(Metz),Chintala,2015年]
無監督學習:視頻預測
無監督學習是人工智能的黑箱
無監督學習是能夠提供足夠信息去訓練數以十億計的神經網絡的唯一學習形式。
監督學習需要花費太多的標注精力
強化學習需要使用太多次的嘗試
但是我們卻不知道如何去進行非監控許誒下(甚至如何將其公式化)
我們有太多的想法及方法
但是他們并不能很好的運作
為何那么難?因為世界本來就是不可預測的。
預測器產出所有未來可能的平均值-模糊圖像
ConvNet多尺度視頻預測
4到8框架輸入→無需匯總的ConvNet→1到8框架輸出
無法使用開方誤差:模糊預測
世界本來就是無法預測的,mse訓練預測未來可能情況的平均值:模糊圖像
ConvNet多尺度視頻預測
ConvNet多尺度視頻預測
ConvNet多尺度視頻預測
與使用LSTM的人[Srivastava等, 2015年]做比較
無監督學習預測
在“對抗訓練”中已經取得了一些成果
但是我們離一個完整的解決方案還相距甚遠。
預測學習
機器智能與人工智能將會有很大不同
人工智能會是什么樣子呢?
人類和動物行為擁有進化過程與生俱來的驅動力
抗戰/飛行,饑餓,自我保護,避免疼痛,對社交的渴求等等
人類相互之間做錯誤的事情也是大部分因為這些驅動力造成的。
受威脅時的暴力行為,對物質資源及社會力量的渴求等等。
但是,人工智能系統并沒有這些驅動力,除非我們在系統里進行配置。
在沒有驅動力情況下,我們很難去對智能實體進行想像
盡管在動物世界里我們有許多的例子。
我們如何調整人工智能的“道德價值”使其與人類價值保持一致?
我們將建立一些基本的、不可改變的固有驅動力:
人類培訓師將會把使周圍人類開心及舒適的行為與獎勵聯系起來。
這正是兒童(及社會性動物)如何學習在社會中變得講規矩
我們能夠預防不安全的人工智能嗎?
是的,就如同我們防范存在潛在危險的飛機及汽車一樣
與人類同等級的人工智能如何產生?
與人類同等級的人工智能的出現不會是一個孤立“事件”。
它會是漸進式的
它也不會孤立發生
沒有任何機構可以在好的想法上面存在壟斷。
先進的人工智能現在是一個科學性的問題,而不是一個技術性的挑戰。
建立無監督學習是我們最大的挑戰
個人的突破將會很快被復制
人工智能研究是一個全球性的團體。
大部分好的點子來自學術屆
盡管另人最印象深刻的應用程序來自行業
區分智能與自主化是十分重要的
最智能的系統并不是自主化的。
結論
深度學習正在引領應用程序的浪潮
如今:圖像識別、視頻認知:洞察力正在運作
如今:更好的語言識別:語言識別正在運作
不久的將來:更好的語言理解能力,對話及翻譯將成為可能
深度學習與卷積網絡正在被廣泛使用
如今:圖像理解能力已經在臉書、谷歌、推特和微軟中被廣泛應用
不久的將來:汽車自動駕駛、醫療圖像分析,機器人的感知能力將成為可能
我們需要為嵌入式應用程序找到硬件(與軟件的)
對于數碼相機、手機設備、汽車、機器人及玩具而言。。
我們離發明真正智能的機器還相距甚遠。
我們需要將推理與深度學習整合在一起。
我們需要一個很好的“情節化”(短期)內存。
我們需要為無監督學習找到好的理論原理做支撐。
AI WORLD 搶先看
神秘中國“大狗”機器人亮相2016世界人工智能大會
看過美國波士頓動力大狗機器人意猶未盡?
其實,我國“四足仿生機器人”的研究也早在幾年前開展,
神秘的國產機器人大狗即將亮相北京·AI WORLD 2016大會現場。
先來一睹為快
機器人大狗來自山東大學,由我國自主研發,技術水平國際領先。
山東大學李貽斌教授
大會還特別邀請到山東大學機器人研究中心主任李貽斌教授在AI WORLD2016-技術分論壇分享“中國大狗”的研發之路。
想近距離接觸機器人大狗,了解大狗背后的故事?
『AI WORLD 2016 世界人工智能大會』
10月18日·北京·國家會議中心
我們不見不散!
戳閱讀原文,啟航期5折搶票,倒計時5天
轉載請注明來自夕逆IT,本文標題:《9x和9xpro區別對比》

還沒有評論,來說兩句吧...