DBSCAN分群是什麼?可應用在什麼樣的場景?

介紹

DBSCAN是一種以密度為基礎的分群方法,判定鄰近資料點密度比較高的時候,就會視為同一群,透過這種方式可以自動將資料點進行分群,而不用像傳統的Kmean分群方法須要事先給定分群數目,DBSCAN的方法只要給定一些基本的參數,就可以將資料點分群完畢。另外還可辨別出在性質差異比較大的點,視為是單獨點。由於此種方法不但可進行分群以外,還可辨別性質差異較大的資料點,因此,可做後續的工程應用。

密度法為基礎的分群方法DBSCAN(density-based method),不斷針對每個點定義鄰近區域(neighborhood),判斷點與點之間的關係,進而判斷是否為同一群,或單獨點(isolated point)。

像是當我們取得量測資料時,有時候會因為量測手法的關係,存在正常量測的資料點與雜訊的資料點,正常量測的資料點就是我們要的資料點,而雜訊的資料點就不是正確的資料點。

假設量測資料分布如下所示,存在有正常量測的資料點也有
有雜訊的資料點。

我們將這組資料採用DBSCAN分群之後,密度高的資料點被分成同一群,然後就可以得到正常量測資料被分為不同群的結果,像是有分成群1,群2,群3等等的結果。那因為雜訊點,密度很稀疏,被視為單獨點,正好我們就可將單獨點視為是不正確的資料點予以濾除。

採用DBSCAN分群之後,密度高的資料點就會被分成同一群,剩下密度低的就會被視為單獨點不納入考慮,此時,剛好可利用此方式濾除雜訊。

另外的應用情境,是在量測設備上,可量測某個物理量,這個物理量會隨時間變化,也就是得到一個時間序列資料,有可能會因為機台量測問題,造成量測結果有雜訊產生。

假設從量測設備可量測得到時間序列資料,上面因為機台量測問題,產生雜訊。

我們可採用DBSCAN方法,將雜訊視為是單獨點予以排除。

採用DBSCAN的做法,就可將雜訊視為單獨點(isolated point)予以排除。

最終就可得到正確的量測結果。

採用DBSCAN濾除雜訊後,最終就可得到正確的量測實驗結果。

結論

透過DBSCAN的方法雖然它本身是一種分群方法,但因為有辨別單獨點的特性,因此,也可將此方法應用在濾除雜訊上面。

DBSCAN是一種以密度為基礎的分群方式,此分群方法還可應用在去除資料點有雜訊的情況下。

[相似文章]:

1.分群演算法(cluster analysis)

[類神經網路基礎系列專文]:

1.類神經網路(Deep neural network, DNN)介紹

2.類神經網路—揭開網路架構調整秘辛

3.類神經網路—啟動函數介紹(一): 深入解析Relu與Sigmoid函數:如何影響類神經網路的學習效果?

4.類神經網路—啟動函數介紹(二): 回歸 vs. 分類: 線性函數與Tanh函數之原理探索

5.類神經網路—啟動函數介紹(三): 掌握多元分類的核心技術:不可不知的softmax函數原理

6.類神經網路—啟動函數介紹(四): 如何選擇最適當的啟動函數?用一統整表格讓您輕鬆掌握

7.類神經網路—前向傳播法

8.類神經網路—反向傳播法(一): 白話文帶您了解反向傳播法

9.類神經網路—反向傳播法(二): 淺談梯度

10.類神經網路—反向傳播法(三): 五步驟帶您了解梯度下降法

11.類神經網路—反向傳播法(四): 揭開反向傳播法神秘面紗

12.機器學習訓練原理大揭秘:六步驟帶您快速了解監督式學習的訓練方法

13.類神經網路—反向傳播法(五): 用等高線圖讓您對學習率更有感

[機器學習基礎系列專文]:

1.機器學習訓練原理大揭秘:六步驟帶您快速了解監督式學習的訓練方法

2.機器學習面臨的問題種類介紹:回歸與分類

[類神經網路延伸介紹]:

1.卷積類神經網路(Convolution neural network,CNN)介紹

2.遞迴類神經網路(Recurrent neural network,RNN)介紹

[ChatGPT系列專文]:

1.淺談最近非常火紅的ChatGPT背後可能原理機制為何?

2.從ChatGPT探索GPT的原理概念:少量數據的解方—遷移學習技巧