返回

解開自動化機器學習之謎

Appier首席人工智慧科學家  孫民博士

近年來,機器學習在優化資料收集和分析工具的技術不斷進步,甚至在各個產業都能看到相關的應用;而現在一股新的趨勢又趁勢興起,那就是自動化機器學習(Auto Machine Learning),簡稱AutoML。

因為一名優秀的資料科學家需要具備高度專業的技能組合,而能夠符合條件的人才相對稀少,使得多數企業難以聘僱到合適的人才,而AutoML的出現能適時地降低對資料科學家的依賴。話雖如此,人們對AutoML仍然存在一些誤解,其中最主要的一個就是認為AutoML完全不需要資料科學家的參與。

機器學習是一項非常強大的通用技術,其相關應用的數量十分驚人。要想了解AutoML的能耐,首先要了解機器學習是如何運作的。

機器學習包含了以下幾個步驟。首先,你需要收集相關資料並進行資料清理,才能釐清你能從這些資料中學到什麼。下一步則是定義資料的特徵表述,將其放入模型並訓練模型來最佳化精確度,以達到預期的目標。由於整體作業極為複雜,需要大量的人力參與,為了讓機器學習發揮最大效益,需要一個訓練有素的資料科學家團隊來協助創建、應用和優化模型,並且參與在整個作業流程當中。

AutoML的終極目標是要讓流程中的所有步驟都能自動執行,才能在提高效率的同時降低成本。若能順利實現,AutoML可望在各產業中發揮不同用途,為社會的不同面向帶來全面性變革。這便是它近期備受矚目的原因。

改變資料科學家的角色

然而,如同許多新興技術所面臨的處境,實際運用的狀況往往比想像中更為複雜。

AutoML的好用程度取決於涉及的產業、資料的類型和模型的種類。在資料收集和清理方面,數位行銷是可以從AutoML獲益的領域之一。當顧客與公司的行銷活動進行互動後,資料標籤將自動生成,成熟的AutoML工具會進一步針對這些標籤進行處理,確保它們沒有雜訊或誤差。

雖然其他產業較難從資料收集和清理中受益,但仍然可適用於自動化特徵工程。舉例而言,訓練自動駕駛車需要人們協助標註行人和停止號誌;同理,訓練醫療顯像工具需要經驗老到的醫師協助定位腫瘤。不過,自從神經網路能以原始顯像圖自動建構特徵後,許多資料科學家的工作量已有所減輕。

即便如此,還是必須提醒科學家們不要天真的使用AutoML。畢竟,無論想達到的目的為何,AutoML仍無法完全取代人類知識。相反的,它將改變原先利用該知識的焦點。

以行銷任務為例,只有自動化機器執行的效果遠比人為作業流程更有效率。通常這些適合自動化的流程是有高度重複性,或是有高度複雜性卻有充足的資料給予支持。藉由自動化工具的協助,人們可以從重複性的任務中擺脫,並將其知識應用到資料較少的領域。

因此目前的技術仍需仰賴資料科學家的支持。有人將這種人類與機器攜手合作的方式,稱為「半自動化機器學習(Semi-AutoML)」。對照作業流程中的實際執行模式,這樣的稱謂可說是名符其實。

權衡效益和成本

企業只要能夠了解AutoML的能力和運作方式,便能在應用過程中有所獲益。

由於這項技術不需要人類專家時刻參與其中,所以能更有效率地進行作業,且速度將大幅提升。只要善加利用,機器的表現不僅能超越人類,更能將人為錯誤的風險降到最低。

將流程自動化之後,機器執行所能產生的效益將達到人力所難以企及的程度。

不過,其中仍有其他需納入考量卻容易被忽略的因素,也就是「成本」。

神經網路結構搜尋可說是AutoML領域中的「聖杯」,也就是編寫出一套人工智慧程式,以自動找出最能解決特定問題的神經網路結構。目前已有研究人員提出證據,認為確實有機會能使神經網路結構搜尋完全自動化(且超越人類執行相同任務的表現);然而,屆時將需要龐大的運算量才能達到目的,甚至還得使用十幾個CPU進行訓練才足以應付。總而言之,整體投入成本將十分可觀。因此,任何公司若想尋求自動化機器學習的協助,都應先針對其可能的獲益、財務以及時間成本進行權衡和評估,才能更明智地加以運用。

儘管AutoML能降低人為錯誤的風險,卻無法將其根除。這項技術僅能最佳化人類設計的衡量標準,但是當衡量標準不正確時,所產出的模型自然也無法解決你的問題。這不僅會發生在AutoML上,人類也可能在採用標準機器學習時犯下相同的錯誤;不過,如果人類有參與開發過程,至少能察覺模型行為的錯誤並協助改正。因此,雖然完全由機器執行作業流程能獲得極高的效益,但若未經考量便直接排除人為參與,可能會在無意中導致更多潛在錯誤發生。

付諸實踐

要維持人類與機器的平衡並不簡單。企業必須評估人類高度參與下的可能利弊,並決定何者為最適合自身的商業模式。例如,讓人員全程參與流程階段的發展時,意味著模式將難以規模化;可同時,為了讓整個流程自動化而逐一建立特定的模型,又會浪費太多時間。實際案例好比行銷人員需要即時推出行銷活動,因此往往無法等上太久。他們追求的是時效性,在最佳的時刻吸引到顧客的關注。

如今,最佳的解決方案往往是借助在某些特定領域採用AutoML的資料科學平台(如同前面所提及的「半自動化機器學習(Semi-AutoML)」)。藉由自動執行特定步驟,企業便能專心研究如何將運算量集中用在提高效率,而成果又不會因精準度降低而大打折扣。以上建議不僅能協助行銷人員了解AutoML的潛能,更能專注於AutoML能為企業成就帶來的實質效益。否則,即使採用了這項技術,也只是徒有其表而已。

只要正確地運用AutoML,企業便能享受其帶來的眾多好處,尤其是對行銷人員而言更是如此。唯有確實了解AutoML的運作方式、涉及範圍,以及它能對企業提供的支持,才能充分發揮AutoML的最大潛能。

訂閱 Appier 部落格

一手掌握最新行銷科技趨勢、自動化行銷、產業趨勢、最佳實踐案例、以及 Appier 觀點。