支持向量機在商品期貨中
A. SVM(支持向量機)在建模過程中,訓練集,測試集的選擇有什麼規律和原則呢
說服性比較困難.在分類器聯合演算法(類似於boosting)中,做法與你的做法類似,特別是隨機子空間法.但是聯合演算法只對弱分類器有效,甚至有人證明過對於強線性分類器必定過適應.
注意到相關文獻描述說服力的時候,都會講到聯合演算法對於弱分類器或許有用.而普通支持向量機本身無論是分類還是回歸都是絕對穩定的,所以如果按照你所說的做法來做,幾乎沒有什麼說服力,等價於你是在為演算法找數據,而不是根據數據做演算法.
B. 什麼是支持向量機(SVM)以及它的用途
SVM - support vector machine, 俗稱支持向量機,為一種supervised learning演算法,屬於classification的范疇。在數據挖掘的應用中,與unsupervised的Clustering相對應和區別。
廣泛應用於機器學習(Machine Learning), 計算機視覺(Computer Vision) 和數據挖掘(Data Mining)當中。
假設要通過三八線把實心圈和空心圈分成兩類,那麼有無數多條線可以完成這個任務。在SVM中,尋找一條最優的分界線使得它到兩邊的margin都最大。
(2)支持向量機在商品期貨中擴展閱讀:
SVM 的優點
1、高維度:SVM 可以高效的處理高維度特徵空間的分類問題。這在實際應用中意義深遠。比如,在文章分類問題中,單詞或是片語組成了特徵空間,特徵空間的維度高達 10 的 6 次方以上。
2、節省內存:盡管訓練樣本點可能有很多,但 SVM 做決策時,僅僅依賴有限個樣本(即支持向量),因此計算機內存僅僅需要儲存這些支持向量。這大大降低了內存佔用率。
3、應用廣泛:實際應用中的分類問題往往需要非線性的決策邊界。通過靈活運用核函數,SVM 可以容易的生成不同的非線性決策邊界,這保證它在不同問題上都可以有出色的表現(當然,對於不同的問題,如何選擇最適合的核函數是一個需要使用者解決的問題)。
C. 支持向量機中的函數距離和幾何距離怎麼理解
SVM是通過超平面將樣本分為兩類。
在超平面確定的情況下,可以相對地表示點距離超平面的遠近。對於兩類分類問題,如果,則的類別被判定為1;否則判定為-1。
所以如果,則認為的分類結果是正確的,否則是錯誤的。且的值越大,分類結果的確信度越大。反之亦然。
所以樣本點與超平面之間的函數間隔定義為
但是該定義存在問題:即和同時縮小或放大M倍後,超平面並沒有變化,但是函數間隔卻變化了。所以,需要將的大小固定,如,使得函數間隔固定。這時的間隔也就是幾何間隔 。
幾何間隔的定義如下
實際上,幾何間隔就是點到超平面的距離。想像下中學學習的點到直線的距離公式
所以在二維空間中,幾何間隔就是點到直線的距離。在三維及以上空間中,就是點到超平面的距離。而函數距離,就是上述距離公式中的分子,即未歸一化的距離。
定義訓練集到超平面的最小幾何間隔是
SVM訓練分類器的方法是尋找到超平面,使正負樣本在超平面的兩側,且樣本到超平面的幾何間隔最大。
所以SVM可以表述為求解下列優化問題
以上內容在《統計學習方法》中,均有詳細的講解。
D. 神經網路和支持向量機的優缺點!
SVM有如下主要幾個特點:
(1)非線性映射是SVM方法的理論基礎,SVM利用內積核函數代替向高維空間的非線性映射;
(2)對特徵空間劃分的最優超平面是SVM的目標,最大化分類邊際的思想是SVM方法的核心;
(3)支持向量是SVM的訓練結果,在SVM分類決策中起決定作用的是支持向量。
(4)SVM 是一種有堅實理論基礎的新穎的小樣本學習方法。它基本上不涉及概率測度及大數定律等,因此不同於現有的統計方法。從本質上看,它避開了從歸納到演繹的傳統過程,實現了高效的從訓練樣本到預報樣本的「轉導推理」,大大簡化了通常的分類和回歸等問題。
(5)SVM 的最終決策函數只由少數的支持向量所確定,計算的復雜性取決於支持向量的數目,而不是樣本空間的維數,這在某種意義上避免了「維數災難」。
(6)少數支持向量決定了最終結果,這不但可以幫助我們抓住關鍵樣本、「剔除」大量冗餘樣本,而且註定了該方法不但演算法簡單,而且具有較好的「魯棒」性。這種「魯棒」性主要體現在:
①增、刪非支持向量樣本對模型沒有影響;
②支持向量樣本集具有一定的魯棒性;
③有些成功的應用中,SVM 方法對核的選取不敏感
兩個不足:
(1) SVM演算法對大規模訓練樣本難以實施
由於SVM是藉助二次規劃來求解支持向量,而求解二次規劃將涉及m階矩陣的計算(m為樣本的個數),當m數目很大時該矩陣的存儲和計算將耗費大量的機器內存和運算時間。針對以上問題的主要改進有有J.Platt的SMO演算法、T.Joachims的SVM、C.J.C.Burges等的PCGC、張學工的CSVM以及O.L.Mangasarian等的SOR演算法
(2) 用SVM解決多分類問題存在困難
經典的支持向量機演算法只給出了二類分類的演算法,而在數據挖掘的實際應用中,一般要解決多類的分類問題。可以通過多個二類支持向量機的組合來解決。主要有一對多組合模式、一對一組合模式和SVM決策樹;再就是通過構造多個分類器的組合來解決。主要原理是克服SVM固有的缺點,結合其他演算法的優勢,解決多類問題的分類精度。如:與粗集理論結合,形成一種優勢互補的多類問題的組合分類器。
E. 支持向量機中的函數距離和幾何距離怎麼理解
函數距離是定義出來的,直接看沒什麼東西,甚至有可能感覺不到具體的意義。
即「樣本的歸類×超平面」;
而幾何距離,則是樣本點距離超平面的歐式距離,有點像點到直線的距離那樣。
函數距離和幾何距離之間,長得很像,就在於集合距離相當於把W和b進行了歸一化。歸一化就是以||w||做分母,w和b做分子。g(x)=|wx+b|/||w||。
他們之間的應用,其實最關鍵的還是幾何距離,你如果繼續看SVM的推導,就會發現,到了後面沒函數距離啥事兒。
F. 如何用BP模型和支持向量機模型在MATLAB中實現預測
如何用BP模型和支持向量機模型在MATLAB中實現預測
根據你的描述: BPNN可以用matlab里的神經網路工具箱,GUI的界面或者matlab源程序都可以 SVM推薦用Libsvm或Lssvm,網上都有下載額
G. 支持向量機中所謂的支持向量究竟是什麼
運算上說,標量機只是一個數一個數地進行計算,而向量機則能夠對一批數據同時進行加工處理。
因此,向量機比標量機的運算速度快,更適合於演算數據量多的大型科學、工程計算問題。
H. 支持向量機(SVM)中的參數C和gamma代表什麼含義呢
C是懲罰系數,理解為調節優化方向中兩個指標(間隔大小,分類准確度)偏好的權重,即對誤差的寬容度,C越高,說明越不能容忍出現誤差,容易過擬合,C越小,容易欠擬合,C過大或過小,泛化能力變差。
gamma是選擇RBF函數作為kernel後,該函數自帶的一個參數。隱含地決定了數據映射到新的特徵空間後的分布,gamma越大,支持向量越少,gamma值越小,支持向量越多。支持向量的個數影響訓練與預測的速度。
(8)支持向量機在商品期貨中擴展閱讀:
1、支持向量機(Support Vector Machine, SVM)是一類按監督學習方式對數據進行二元分類的廣義線性分類器其決策邊界是對學習樣本求解的最大邊距超平面。
2、SVM使用鉸鏈損失函數計算經驗風險並在求解系統中加入了正則化項以優化結構風險,是一個具有稀疏性和穩健性的分類器。SVM可以通過核方法進行非線性分類,是常見的核學習方法之一。
I. 請高人指點!什麼是支持向量機(SVM)其本質原理是什麼
支持向量機SVM ( Support Vector Machines)是由Vanpik領導的AT&TBell實驗室研究小組
在1963年提出的一種新的非常有潛力的分類技術, SVM是一種基於統計學習理論的模式識別方法,主要應用於模式識別領域.由於當時這些研究尚不十分完善,在解決模式識別問題中往往趨於保守,且數學上比較艱澀,因此這些研究一直沒有得到充的重視.直到90年代,一個較完善的理論體系—統計學習理論 ( StatisticalLearningTheory,簡稱SLT) 的實現和由於神經網路等較新興的機器學習方法的研究遇到一些重要的困難,比如如何確定網路結構的問題、過學習與欠學習問題、局部極小點問題等,使得SVM迅速發展和完善,在解決小樣本 、非線性及高維模式識別問題中表現出許多特有的優勢,並能夠推廣應用到函數擬合等其他機器學習問題中.從此迅速的發展起來,現在已經在許多領域(生物信息學,文本和手寫識別等)都取得了成功的應用。
SVM的關鍵在於核函數,這也是最喜人的地方。低維空間向量集通常難於劃分,解決的方法是將它們映射到高維空間。但這個辦法帶來的困難就是計算復雜度的增加,而核函數正好巧妙地解決了這個問題。也就是說,只要選用適當的核函數,我們就可以得到高維空間的分類函數。在SVM理論中,採用不同的核函數將導致不同的SVM演算法
它是一種以統計學理論為基礎的,以結構風險最小化的學習機學習方法,要優於神經網路學習,以上是摘自本人的畢業設計,如需轉載,請通知本人
J. 支持向量機分類法
支持向量機(Support Vector Machine,SVM)分類過程是基於Vapnik和Cher- vonenkis提出的統計學習理論(Statistical Learning Theory,SLT),Vapnik對SVM進行了詳細的討論(Vapnik,1995;Shah et al.,2003;Mahesh et al.,2004;李海濤等,2007;張兵等,2011)。支持向量機(SVM)分類的主要思想是尋找最優分離超平面(Optimal Separating Hyperplane,OSH),將兩類樣本無錯誤的分開,並使分類空隙最大,如圖2.2所示。記H為最優分離超平面,H1和H2之間的距離M為分類間隔。
圖2.2 最優分離超平面和支持向量機的最大邊緣
支持向量機用來解決非線性問題,它是通過如圖2.2(a)所示的核函數Φ(x)表示的非線性變換把非線性問題轉換成高維數的線性問題,在這種線性變換特徵空間中可以獲得最優分離超平面,支持向量機方法正是基於這種從線性可分情況下的最優分類面提出的。結合二分類問題,可以通過線性超平面把給定數據集劃分成兩類,如圖2.2(b)所示。因此,支持向量機針對兩種感興趣區域的最大邊緣,並在它們之間設置了一個線性分離超平面,以此拓展到高維空間線性分離超平面發展成為最優分離超平面。
圖2.2中實心點和空心點分別表示兩類的樣本,H為分類線,H1和H2分別為過各類樣本中距離分類線最近的點且平行於分類線的直線,它們之間的距離叫做分類空隙或分類間隔(margin)。所謂最優分類線就是要求分類線不但能將兩類正確分開,而且要使分類間隔最大。前者是保證經驗風險最小(為0),分類間隔最大實際上就是使推廣性的界中的置信范圍最小,從而使真實風險最小。推廣到高維,最優分類線就成為最優分類面。
支持向量機的目標就是尋求一個超平面,它能否聯合核函數來分離數據,以便於使所有具有相同標簽的點能歸類到超平面的同一側。假設訓練數據集是線性可分的k個訓練樣本組成,這些樣本表示為(xi,yi)(i =1,…,k),其中x∈Rn是各個樣本的n維數據矢量,並且屬於兩類中標以yi∈ {-1,+1}的任何一類(類別標簽)。支持向量機就是找到n維空間中由g(x)=w·x+b定義的線性判定函數。分類超平面(OSH)方程如下:
高光譜遙感影像信息提取技術
假如矢量w和尺度b能夠確定的話,判定函數式(2.5)和式(2.6)能夠被滿足,則這些訓練的模式被稱為可線性分離:
高光譜遙感影像信息提取技術
即使兩類所有樣本都滿足|g(xi)|≥1,距離分類面最近的樣本的|g(xi)|=1,這樣分類間隔就等於2/w,因此使間隔最大等價於使w(或||w‖2)最小;而要求分類線對所有樣本正確分類,就是要求它滿足:
高光譜遙感影像信息提取技術
因此,滿足條件式(2.4)且使‖w‖2最小的分類面就是最優分類面。過兩類樣本中距離分類面最近的點且平行於最優分類面的超平面H1、H2上的訓練樣本就是式(2.4)中使等號成立的那些樣本,稱之為支持向量(Support Vectors)。因為它們支撐了最優分類面,如圖2.2中H1、H2上標出的點。
根據上面的討論,最優分類面問題可以表示成如下的二次規劃問題,即在條件式(2.7)的不等式約束下,求函數
高光譜遙感影像信息提取技術
的最小值。為此,可以定義如下的拉格朗日(Lagrange)函數:
高光譜遙感影像信息提取技術
其中,ai>0為Lagrange系數,下面對w和b求Lagrange函數的極小值。把式(2.9)分別對w和b求偏微分並令它們等於0,就可以把原問題轉化為如下這種較簡單的對偶問題,在約束條件:
高光譜遙感影像信息提取技術
對ai求解下列函數的最大值:
高光譜遙感影像信息提取技術
若 為最優解,則
高光譜遙感影像信息提取技術
上式表明最優分類面的權系數向量是訓練樣本向量的線性組合。
這是一個不等式約束下二次函數求極值問題,存在唯一解。且根據Kuhn-Tucker條件,這個優化問題的解須滿足:
高光譜遙感影像信息提取技術
因此,對多數樣本ai*將為零,取值不為零的 對應於使式(2.7)等號成立的樣本即支持向量,它們通常只是全體樣本中的很少一部分。
基於最優分類面的分類規則就是解上述問題得到的最優分類函數:
高光譜遙感影像信息提取技術
式中:sgn()為符號函數。由於非支持向量對應的ai均為零,因此式(2.14)中的求和實際上只對支持向量進行。b*是分類的域值,可以由任意一個支持向量用式(2.7)求得,或通過兩類中任意一對支持向量取中值求得。最優分類面是在線性可分的前提下得到的,在線性不可分的情況下,就是某些訓練樣本不能滿足條件式(2.7)時得到的最優分類面,稱之為廣義最優分類面。因此可以在式(2.7)中增加一個鬆弛項εi≥0,成為:
高光譜遙感影像信息提取技術
廣義最優分類面問題可以進一步演化為在條件式(2.15)的約束下求下列函數的極小值:
高光譜遙感影像信息提取技術
式中:C>0是某個指定的常數,它用來控制對錯分樣本懲罰的程度,實現在錯分樣本的比例與演算法復雜度之間的折中。
廣義最優分類面的對偶問題與線性可分情況下幾乎完全相同,只是約束條件式(2.10)變為:
高光譜遙感影像信息提取技術
實際求解最優化問題和計算分類平面時,只涉及訓練樣本之間的內積運算(xi,yi),即只需計算核函數K(x · x′)。目前常用的核函數有線性核函數、多項式核函數、高斯徑向基核函數(RBF核函數)和Sigmoid核函數等。