本文實例講述了PHP數(shù)據(jù)分析引擎計算余弦相似度算法。分享給大家供大家參考,具體如下:
余弦相似度,又稱為余弦相似性,是通過計算兩個向量的夾角余弦值來評估他們的相似度。余弦相似度將向量根據(jù)坐標(biāo)值,繪制到向量空間中,如最常見的二維空間。
關(guān)于余弦相似度的相關(guān)介紹可參考百度百科:余弦相似度
<?php /** * 數(shù)據(jù)分析引擎 * 分析向量的元素 必須和基準(zhǔn)向量的元素一致,取最大個數(shù),分析向量不足元素以0填補。 * 求出分析向量與基準(zhǔn)向量的余弦值 * @author yu.guo@okhqb.com */ /** * 獲得向量的模 * @param unknown_type $array 傳入分析數(shù)據(jù)的基準(zhǔn)點的N維向量。|eg:array(1,1,1,1,1); */ function getMarkMod($arrParam){ $strModDouble = 0; foreach($arrParam as $val){ $strModDouble += $val * $val; } $strMod = sqrt($strModDouble); //是否需要保留小數(shù)點后幾位 return $strMod; } /** * 獲取標(biāo)桿的元素個數(shù) * @param unknown_type $arrParam * @return number */ function getMarkLenth($arrParam){ $intLenth = count($arrParam); return $intLenth; } /** * 對傳入數(shù)組進行索引分配,基準(zhǔn)點的索引必須為k,求夾角的向量索引必須為 'j'. * @param unknown_type $arrParam * @param unknown_type $index * @ruturn $arrBack */ function handIndex($arrParam, $index = 'k'){ foreach($arrParam as $key => $val){ $in = $index.$key; $arrBack[$in] = $val; } return $arrBack; } /** * * @param unknown_type $arrMark標(biāo)桿向量數(shù)組(索引被處理過) * @param unknown_type $arrAnaly 分析向量數(shù)組 (索引被處理過) |array('j0'=>1,'j1'=>2....) * @param unknown_type $strMarkMod標(biāo)桿向量的模 * @param unknown_type $intLenth 向量的長度 */ function getCosine($arrMark, $arrAnaly, $strMarkMod ,$intLenth){ $strVector = 0; $strCosine = 0; for($i = 0; $i < $intLenth; $i++){ $strMarkVal = $arrMark['k'.$i]; $strAnalyVal = $arrAnaly['j'.$i]; $strVector += $strMarkVal * $strAnalyVal; } $arrAnalyMod = getMarkMod($arrAnaly); //求分析向量的模 $strFenzi = $strVector; $strFenMu = $arrAnalyMod * $strMarkMod; $strCosine = $strFenzi / $strFenMu; if(0 !== (int)$strFenMu){ $strCosine = $strFenzi / $strFenMu; } return $strCosine; } ?>
希望本文所述對大家PHP程序設(shè)計有所幫助。
如對本文有疑問,請?zhí)峤坏浇涣髡搲瑥V大熱心網(wǎng)友會為你解答??! 點擊進入論壇