遷移學(xué)習(xí)讓深度學(xué)習(xí)更容易x
發(fā)布時(shí)間:2020-08-26 來(lái)源: 實(shí)習(xí)報(bào)告 點(diǎn)擊:
遷移學(xué)習(xí)讓深度學(xué)習(xí)更容易 深度學(xué)習(xí)在一些傳統(tǒng)方法難以處理的領(lǐng)域有了很大的進(jìn)展。這種成功是由于改變了傳統(tǒng)機(jī)器學(xué)習(xí)的幾個(gè)出發(fā)點(diǎn),使其在應(yīng)用于非結(jié)構(gòu)化數(shù)據(jù)時(shí)性能很好。如今深度學(xué)習(xí)模型可以玩游戲,檢測(cè)癌癥,和人類交談,自動(dòng)駕駛。
深度學(xué)習(xí)變得強(qiáng)大的同時(shí)也需要很大的代價(jià)。進(jìn)行深度學(xué)習(xí)需要大量的數(shù)據(jù)、昂貴的硬件、甚至更昂貴的精英工程人才。
在 Cloudera Fast Forward 實(shí)驗(yàn)室,我們對(duì)能解決這些問(wèn)題的創(chuàng)新特別興奮。我們最新的研究報(bào)告深入探討了多任務(wù)學(xué)習(xí),一種允許機(jī)器學(xué)習(xí)模型同時(shí)從多個(gè)任務(wù)中學(xué)習(xí)的方法。其中的一個(gè)好處就是可以減少訓(xùn)練數(shù)據(jù)需求。
在本文中,我們將講述遷移學(xué)習(xí),這是一種可以將知識(shí)從一項(xiàng)任務(wù)遷移到另一項(xiàng)任務(wù)的相關(guān)技術(shù)。遷移學(xué)習(xí)允許你從相關(guān)問(wèn)題中轉(zhuǎn)移知識(shí)而不是針對(duì)問(wèn)題開(kāi)發(fā)一個(gè)完全定制的解決方案,這能幫助你更輕松地解決特定問(wèn)題。通過(guò)遷移這些知識(shí),你可以減少很多開(kāi)支,接下來(lái)看一下該方法如何有效地解決上述問(wèn)題。
為什么深度學(xué)習(xí)不同于其他方法 于其他方法 遷移學(xué)習(xí)不是一種新技術(shù),也不是專門(mén)針對(duì)深度學(xué)習(xí)的,但考慮到最近深度學(xué)習(xí)的進(jìn)展,它是一種令人興奮的新技術(shù)。首先,有必要說(shuō)明深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的不同之處。
深度學(xué)習(xí)是在較低的抽象層次上進(jìn)行的 深度學(xué)習(xí)是在較低的抽象層次上進(jìn)行的 機(jī)器學(xué)習(xí)是機(jī)器自動(dòng)學(xué)習(xí)函數(shù)權(quán)重的一種方式。
確定函數(shù)如何從提供的輸入產(chǎn)生輸出是比較困難的。如果對(duì)函數(shù)沒(méi)有任何限制,那么可能性是無(wú)窮無(wú)盡的。為了簡(jiǎn)化這個(gè)任務(wù),我們通常在功能上強(qiáng)加某種類型的結(jié)構(gòu)——基于我們正在解決的問(wèn)題的類型或者簡(jiǎn)單的嘗試和誤差。這種結(jié)構(gòu)定義了一種機(jī)器學(xué)習(xí)模型。
理論上,結(jié)構(gòu)是無(wú)限的,但在實(shí)踐中,大多數(shù)機(jī)器學(xué)習(xí)用例都可以通過(guò)應(yīng)用少數(shù)的結(jié)構(gòu)來(lái)解決:線性模型、樹(shù)的集合和支持向量機(jī)。數(shù)據(jù)科學(xué)家的工作就是從這一小部分可能的結(jié)構(gòu)中選擇正確的結(jié)構(gòu)使用。
這些模型可以作為黑盒對(duì)象從各種成熟的機(jī)器學(xué)習(xí)庫(kù)中獲得,并且只需要幾行代碼就可以訓(xùn)練出來(lái)。例如,可以使用 Python 的 scikit-learn 來(lái)訓(xùn)練一個(gè)隨機(jī)森林模型,如下所示:
clf = RandomForestClassifier()
clf.fit(past_data, labels)
predictions = clf.predict(future_data)
或 R 中的線性回歸模型:
linearModel <- lm(y ~ X, data=pastData)
predictions <- predict(linearModel, futureData)
雖然深度學(xué)習(xí)是在較低的層次上進(jìn)行的,但并不是在有限的模型結(jié)構(gòu)中進(jìn)行選擇的,而是允許實(shí)踐者加上自己設(shè)計(jì)的模型結(jié)構(gòu)。構(gòu)建塊是可以認(rèn)為是基本數(shù)據(jù)轉(zhuǎn)換的模塊。這意味著在應(yīng)用深度學(xué)習(xí)時(shí),我們需要打開(kāi)黑盒子,而不是通過(guò)算法固定地實(shí)現(xiàn)。
這樣以來(lái)就允許開(kāi)發(fā)者構(gòu)建更強(qiáng)大的模型,從另一個(gè)角度來(lái)看這也為模型構(gòu)建添加了一個(gè)全新的維度。盡管大量的深度學(xué)習(xí)研究報(bào)告、實(shí)用指南被發(fā)表,但要有效地組織這些轉(zhuǎn)變可能是一個(gè)困難的過(guò)程。
考慮一個(gè)極其簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)圖像分類器,它在流行的深度學(xué)習(xí)庫(kù) PyTorch中定義:
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
self.conv2 = nn.Conv2d(10, 20, kernel_size=5)
self.conv2_drop = nn.Dropout2d()
self.fc1 = nn.Linear(320, 50)
self.fc2 = nn.Linear(50, 10)
def forward(self, x):
x = F.relu(F.max_pool2d(self.conv1(x), 2))
x = F.relu(F.max_pool2d(self.conv2_drop(self.conv2(x)), 2))
x = x.view(-1, 320)
x = F.relu(self.fc1(x))
x = F.dropout(x, training=self.training)
x = self.fc2(x)
return F.log_softmax(x, dim=1)
因?yàn)槲覀兪褂玫氖堑图?jí)的構(gòu)建塊,所以我們可以更改模型的單個(gè)組件(例如F.relu,F.sigmoid)。這為我們提供了可能會(huì)產(chǎn)生不同結(jié)果的全新模型體系結(jié)構(gòu),而這種可能性是無(wú)限的。
深度學(xué)習(xí)尚未被充分理解 深度學(xué)習(xí)尚未被充分理解 即使給定一個(gè)固定的神經(jīng)網(wǎng)絡(luò)架構(gòu),訓(xùn)練也是非常困難的。首先,深度學(xué)習(xí)損失函數(shù)不是一般的凸函數(shù),這意味著訓(xùn)練不一定會(huì)產(chǎn)生最好的解決方案。其次,深度學(xué)
習(xí)仍然是非常新的,它的許多組成部分還沒(méi)有被很好地理解。例如,批處理歸一化最近受到了關(guān)注,因?yàn)橐恍┠P椭兴坪鯇?duì)良好結(jié)果至關(guān)重要,但專家們無(wú)法就原因達(dá)成一致。研究員阿里·拉希米在最近的一次機(jī)器學(xué)習(xí)會(huì)議上把深度學(xué)習(xí)比作煉金術(shù)引起了一些爭(zhēng)議。
自動(dòng)特征工程 程 深度學(xué)習(xí)中增加的復(fù)雜性使一種稱為表示學(xué)習(xí)的技術(shù)得以實(shí)現(xiàn),這就是為什么神經(jīng)網(wǎng)絡(luò)經(jīng)常被稱為“自動(dòng)特征工程”?傊,我們以這樣一種方式構(gòu)建模型而不需要從數(shù)據(jù)集中人工設(shè)計(jì)有用的特征,這樣它們就可以學(xué)習(xí)任何必要的、對(duì)手頭任務(wù)有用的特征。將特征工程放到模型上是非常強(qiáng)大的,但是需要大量數(shù)據(jù)和大量計(jì)算能力的模型成本。
你能做什么 你能做什么 與其他機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)顯得很復(fù)雜,以至于它似乎難以融入你的業(yè)務(wù)。對(duì)于資源有限的組織來(lái)說(shuō),這種感覺(jué)更加強(qiáng)烈。
對(duì)于真正需要投入大量資源進(jìn)行開(kāi)發(fā)的組織,可能確實(shí)需要雇傭?qū)<也①?gòu)買(mǎi)專門(mén)的硬件。但在很多情況下,這是不必要的。有很多方法可以在不進(jìn)行巨額投資的情況下有效地應(yīng)用它,這就是遷移學(xué)習(xí)的由來(lái)。
轉(zhuǎn)移學(xué)習(xí)是使知識(shí)從一種機(jī)器學(xué)習(xí)模式遷移到另一種機(jī)器學(xué)習(xí)模式的技術(shù)。這些模型可能是多年來(lái)對(duì)模型結(jié)構(gòu)的研究、對(duì)龐大數(shù)據(jù)集的訓(xùn)練以及多年的計(jì)算時(shí)間進(jìn)行優(yōu)化的結(jié)果。通過(guò)遷移學(xué)習(xí),你可以不用付出任何代價(jià)就能從這項(xiàng)工作中獲得好處。
什么是轉(zhuǎn)移學(xué)習(xí) 什么是轉(zhuǎn)移學(xué)習(xí)? 大多數(shù)機(jī)器學(xué)習(xí)任務(wù)從零知識(shí)開(kāi)始,這意味著模型的結(jié)構(gòu)和參數(shù)開(kāi)始是隨機(jī)猜測(cè)的。
例如:檢測(cè)貓模型是通過(guò)猜測(cè)開(kāi)始訓(xùn)練的,它通過(guò)聚集它所見(jiàn)過(guò)的許多不同的貓的共同模式,逐漸了解貓是什么。
在這種情況下,模型學(xué)到的所有東西都來(lái)自所給出的數(shù)據(jù)。但這是解決問(wèn)題的唯一方法嗎?在某些情況下,好像是。
檢測(cè)貓的模型在不相關(guān)的應(yīng)用程序中可能是無(wú)用的,比如詐騙檢測(cè)。它只知道如何理解貓的圖片,而不是信用卡交易。
但在其他情況下,兩個(gè)系統(tǒng)之間好像能夠在任務(wù)之間共享信息。
貓檢測(cè)器在相關(guān)任務(wù)中很有用,比如貓的面部定位。檢測(cè)器應(yīng)該已經(jīng)知道如何檢測(cè)貓的胡須、鼻子和眼睛——所有這些東西在定位貓的臉時(shí)都很有用。
這就是轉(zhuǎn)移學(xué)習(xí)的本質(zhì):采用一個(gè)已經(jīng)學(xué)會(huì)如何很好地完成一項(xiàng)任務(wù)的模型,并將部分知識(shí)遷移到相關(guān)任務(wù)。
當(dāng)我們檢查自己的學(xué)習(xí)經(jīng)驗(yàn)時(shí),也證明著遷移學(xué)習(xí)的正確性;我們定期會(huì)遷移過(guò)去學(xué)到的技能,以便更快地學(xué)習(xí)新的技能。例如,一個(gè)已經(jīng)學(xué)會(huì)扔棒球的人不需要完全重新學(xué)習(xí)扔球的技巧來(lái)學(xué)習(xí)如何扔足球。這些事情是內(nèi)在相關(guān)的,做好其中一件事的能力自然會(huì)轉(zhuǎn)化為做好另一件事的能力。
在機(jī)器學(xué)習(xí)領(lǐng)域,沒(méi)有比過(guò)去五年的計(jì)算機(jī)視覺(jué)領(lǐng)域更好的例子了。一開(kāi)始訓(xùn)練模型是很少見(jiàn)的。相反,我們從一個(gè)預(yù)先訓(xùn)練好的模型開(kāi)始,這個(gè)模型已經(jīng)知道如何分類簡(jiǎn)單的物體,比如貓、狗和雨傘。學(xué)習(xí)對(duì)圖像進(jìn)行分類的模型首先要學(xué)習(xí)檢測(cè)一般圖像特征,如邊緣、形狀、文本和面孔。
預(yù)訓(xùn)練模型具有這些基本技能。通過(guò)在新數(shù)據(jù)集上添加層或重新訓(xùn)練,可以稍微修改預(yù)先訓(xùn)練的分類模型,將這些昂貴的基本技能遷移到新的專門(mén)化中,這就是遷移學(xué)習(xí)。
遷移學(xué)習(xí)需要更少的訓(xùn)練數(shù)據(jù) 遷移學(xué)習(xí)需要更少的訓(xùn)練數(shù)據(jù) 當(dāng)你在一個(gè)新的與貓相關(guān)的任務(wù)中再次用你的貓檢測(cè)模型時(shí),你的模型已經(jīng)有了“認(rèn)識(shí)一百萬(wàn)只貓的智慧”,這意味著你不需要使用幾乎同樣多的圖片來(lái)訓(xùn)練新的任務(wù)。
通過(guò)遷移學(xué)習(xí)的模型泛化能力更好 通過(guò)遷移學(xué)習(xí)的模型泛化能力更好 遷移學(xué)習(xí)提高了泛化能力,或者提高了模型在未經(jīng)訓(xùn)練的數(shù)據(jù)上表現(xiàn)良好的能力。這是因?yàn)轭A(yù)先訓(xùn)練的模型是有目的地訓(xùn)練任務(wù),這些任務(wù)迫使模型學(xué)習(xí)在相關(guān)上下文中有用的通用特性。當(dāng)模型遷移到一個(gè)新的任務(wù)時(shí),很難對(duì)新的訓(xùn)練數(shù)據(jù)進(jìn)行過(guò)度擬合,因?yàn)槟P椭荒軓囊粋(gè)非常一般的知識(shí)庫(kù)中增量地學(xué)習(xí)。建立一個(gè)泛化能力好的模型是機(jī)器學(xué)習(xí)中最困難也是最重要的部分之一。
遷移學(xué)習(xí)訓(xùn)練過(guò)程并不那么脆弱 遷移學(xué)習(xí)訓(xùn)練過(guò)程并不那么脆弱 從一個(gè)預(yù)先訓(xùn)練好的模型開(kāi)始有助于克服訓(xùn)練一個(gè)復(fù)雜模型的、令人沮喪的、脆弱的和混亂的過(guò)程。遷移學(xué)習(xí)將可訓(xùn)練參數(shù)的數(shù)量減少了 100%,使訓(xùn)練更穩(wěn)定,更容易調(diào)試。
轉(zhuǎn)移學(xué)習(xí)使深度學(xué)習(xí)更容易 轉(zhuǎn)移學(xué)習(xí)使深度學(xué)習(xí)更容易 最后,遷移學(xué)習(xí)使深度學(xué)習(xí)更容易進(jìn)行,因?yàn)椴恍枰约撼蔀閷<襾?lái)獲得專家級(jí)別的結(jié)果。比如流行的圖像分類模型 Resnet-50。
這個(gè)特定的架構(gòu)是如何選擇的?這是多年來(lái)各種深度學(xué)習(xí)專家的研究和實(shí)驗(yàn)的結(jié)果。在這個(gè)復(fù)雜的結(jié)構(gòu)中有 2500 萬(wàn)個(gè)權(quán)重,如果沒(méi)有對(duì)模型的每個(gè)組件的廣泛了解,從頭優(yōu)化這些權(quán)重幾乎是不可能的。幸運(yùn)的是,通過(guò)遷移學(xué)習(xí),可以重用復(fù)雜的結(jié)構(gòu)和優(yōu)化的權(quán)重,大大降低了深入學(xué)習(xí)的門(mén)檻。
結(jié)論 結(jié)論 遷移學(xué)習(xí)是一種知識(shí)(權(quán)重)共享技術(shù),它減少了構(gòu)建深度學(xué)習(xí)模型所需的訓(xùn)練數(shù)據(jù)、計(jì)算能力和工程人才的數(shù)量。而且,由于深度學(xué)習(xí)能夠比傳統(tǒng)機(jī)器學(xué)習(xí)提供顯著的改進(jìn),因此遷移學(xué)習(xí)是一個(gè)必不可少的工具。
原文鏈接 本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
相關(guān)熱詞搜索:學(xué)習(xí) 更容易 遷移
熱點(diǎn)文章閱讀