在线观看日产精品_成人性生交大片免费看中文网站_神马影院午夜我不卡_亚洲国产精品久久久久久

中文核心期刊咨詢網權威的中英文核心期刊目錄大全,最新2023中文核心期刊目錄查詢,英文論文期刊發表學術咨詢服務。
中文核心期刊咨詢網

網頁模糊歸類算法應用實現發表職稱論文

作者: admin2013-09-06閱讀:文章來源:未知

  摘要:本文運用以模糊綜合評判為核心的理論實現對網頁的模糊自動歸類,詳細闡述了網頁模糊歸類算法(FWCA),并且通過一個實例闡明了實現過程。作者利用此算法親自設計實現了一個“網頁模糊歸類測試系統”,通過分析大量實驗數據證明了利用此算法得歸類效果非常穩定和準確。

  關鍵詞:FWCA 模糊綜合評判 網頁歸類 分類瀏覽 搜索引擎 計算機論文投稿

  自有文字和書籍以來,人類就開始注意文章的分門別類和編撰目錄。那些目錄事實上就將文章按照內容的類別進行了分類。九十年代以來,Internet 以驚人的速度發展起來,Web的容量增長迅速,平均每天增加100萬個頁面。計算技術發展到今天,靠人來閱讀互聯網上信息和對網上信息做分門別類和總結已經不可能。

  搜索引擎的分類瀏覽模式由此應運而生。它的目錄分類的質量較高,檢索效果好;但是需要人工維護,因此存在成本高、信息更新慢、維護的工作量大的缺點。而基于模糊技術的網頁自動歸類能依據網頁中所包含的文本的語義將大量的網頁自動分門別類,從而更好地幫助人們把握網絡信息。

  網頁模糊歸類步驟與算法

  簡單地說,網頁自動歸類所要完成的任務就是在給定的分類體系下,根據網頁的內容自動地確定網頁關聯的類別。如果從純數學角度來看,網頁分類的過程實際上就是一個多對多的映射過程。依據“貝葉斯假設”的內容,可以假定組成網頁的元素在確定網頁類別的作用上相互獨立。這樣,可以使用網頁中出現的字或詞的集合來代替網頁,即用一個向量來表示文本:D(W1,W2,W3……Wn),其中 Wi 為第 i 個元素(以下均稱為“特征項”)的數值。當然,這將丟失大量關于網頁內容的信息,但是這種假設可以使網頁的表示和處理形式化,從而讓計算機可以處理網頁。

  構成網頁中的文本的詞匯,數量是相當大的,因此,表示網頁的向量空間的維數也相當大,可以達到幾萬維,所有幾萬個詞匯對網頁分類的意義是不同的。首先,需要考慮詞語的性質。一些通用的、各個類別都普遍存在的詞匯對分類的貢獻是很小的,因此特征提取過程需要去掉對表達網頁類別不太重要的詞匯。例如“的”、“地”、“得”、“著”、“了”等等。其次,在某特定類中出現比重大而在其他類中出現比重小的詞匯對文本分類的貢獻大,為了提高分類精度,可以利用詞語的互信息量篩選出針對該類的特征項集合。具體操作方法是算出每個詞語的互信息量并排序,然后抽取前n個詞語作為該類別的特征項,抽取的原則是反復試驗使得網頁歸類效果最優。互信息量(I)計算公式由下式給出:

  為了讓計算機為我們進行網頁的自動歸類,必須先對計算機進行訓練。只要訓練網頁足夠多,那么由計算機進行的歸類活動也將是準確的。所有的訓練樣本都需表示為向量 。并使用每個詞的相對詞頻(TF-IDF 公式)對網頁樣本的特征項進行量化。然后,將每個類別中的所有訓練樣本數據合成為一個平均參照樣本,計算方法就是將每個特征項的值求算術平均。相對詞頻計算公式由下式給出:

  在歸類過程中,采用三級模糊綜合評判。一級指標因素集(網頁中出現位置)包括:網頁題名、文章標題、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML標記。二級指標因素集(詞性)包括:名詞, 動詞, 形容詞, 副詞, 介詞, 連詞, 助詞, 數字, 符號。三級指標因素集:待分類網頁中所包含的全部詞語的頻數。評價集確定為V={V1(不屬于0), V2(不太可能屬于0.25), V3(可能屬于0.5), V4(很可能屬于0.75), V5(屬于1)}。

  專家隨機抽取了300篇網頁,對這些網頁進行人工自由標引、人工打分、詞頻統計,并進行統計數據的分析、研究,將一級指標因素權重集確定為A={0.128, 0.128, 0.128, 0.104, 0.104, 0.104, 0.06, 0.06, 0.06, 0.06, 0.05, 0.05};根據語言學專家對各類別中不同詞性的詞語對標志一個類別(以中圖分類法為標準)重要性程度統計和評分,將二級指標因素權重集確定為An={0.28, 0.18, 0.24, 0.06, 0.05, 0.04, 0.04, 0.06, 0.05};根據詞語的互信息量確定出三級指標因素權重為Anm={Anm1, Anm2 … Anmx} 其中,Anmx即為對應詞語的互信息量

  隸屬函數采用卡夫曼教授提出的隸屬函數確定方法(正態分布模型)確定如下:

  ① 詞頻針對“不屬于”的隸屬函數

  ② 詞頻針對“不太可能屬于”的隸屬函數

  ③ 詞頻針對“不可能屬于”的隸屬函數

  ④ 詞頻針對“很可能屬于”的隸屬函數

  ⑤ 頻針對“屬于”的隸屬函數

  其中,axyz是訓練樣本中詞語的相對詞頻;x為樣本網頁中對應詞的統計詞頻;系數是通過人工評判得到一些特殊點,由待定系數法求出的。

  下面就要根據多級模糊綜合評判的計算方法與步驟將待歸類網頁與所有類別的平均參照樣本進行一遍計算,得出一組表示該網頁與各個類別貼近度的數值。然后按照“最大隸屬原則”,將網頁劃到Vn值最大的對應的類別中;或者用“域值法”,事先確定一個不大于1的域值λ,若Vn>λ則認為網頁屬于此類別,因此,一個網頁可能同時屬于多個類別。

  網頁模糊歸類實例

  (1).前期工作

  •簡化的分類的標準:經濟類,體育類,科教類

  •訓練樣本數目:48篇(三類各16篇)

  •待歸類網頁:

  •一級指標因素及權重:U={U1=0.5, U2=0.5}

  •二級指標因素及權重:U1={U11=1.0 }

  U2={U21=0.4}, U22=0.26), U23=0.34 }

  •三級指標因素及權重:

  U11={U111=0.86}, U112=0.14)}

  U21={U211=0.11, U212=0.35, U213=0.21, U214=0.06, U215=0.10, U216=0.17}

  U22={U221=0.26, U222=0.38, U223=0.36}

  U23={U231=0.46, U232=0.54}

  •經濟類訓練網頁樣本相對詞頻:

  a11={a111(經濟1.2), a112(快訊1.2)}

  a21={a211(我國1.1), a212(經濟2.2), a213(水平1.8), a214(三年0.5), a215(人民0.9), a216(生活1.3)}

  a22={a221(實現1.3), a222(翻番1.8), a223(提高1.7)}

  a23={a231(連續1.6), a232(日益1.7)}

  (2).模糊綜合評判

  首先統計待分類網頁的各個詞語的絕對詞頻如下:

  U11={U111(經濟1), U112(快訊1)}

  U21={U211(我國1), U212(經濟2), U213(水平1), U214(三年1), U215(人民1), U216(生活1)}

  U22={U221(實現1), U222(翻番1), U223(提高1)}

  U23={U231(連續1), U232(日益1)}

  總共可以得到4個一級模糊綜合評判矩陣如下:

  構造二級模糊綜合評判矩陣

  ①采用M(∧,∨)算子的運算結果

  ②采用M(•, )算子的運算結果

  構造三級模糊綜合評判矩陣

  ①采用M(∧,∨)算子的運算結果

  ②采用M(•, )算子的運算結果

  多因素綜合評判

  ①采用M(∧,∨)算子的運算結果

  ②采用M(•, )算子的運算結果

  網頁歸類決策

  通過三輪計算得出下表:

  樣本與類別貼近度 經濟類 體育類 科教類

  采用M(∧,∨)算子 0.68 0.31 0.42

  采用M(•, )算子

  0.80 0.16 0.27

  不管采用哪一種算子,如果用“最大隸屬原則”判斷,顯然都應該屬于“經濟類”;如果用“域值法”(λ=0.6)判斷,也應該都屬于“經濟類”。

  結果分析

  由上述算例可以看出,若用“最大隸屬原則”判斷,取λ=0.68,采用M(∧,∨)算子的算法就無法對此網頁歸類了,而采用M(•, )算子卻可以對網頁正確歸類。另外,采用M(•, )算子的結果區分效果比較明顯,與人工歸類的結果比較接近。由此可見,采用M(•, )算子的算法明顯優于采用M(∧,∨)算子的算法。

  本文的實例網頁最后得出的與“經濟類”網頁的貼近值僅0.8,比理想值(人工估計為0.9)偏低了了一些,與其他類別的貼近值也存在一些偏差。這是因為本文中舉的例子為了簡單起見,訓練文本才48篇,導致計算機訓練不足;另外,待歸類網頁過于簡單。這些都導致了歸類結果與理想值的偏差,在實際情況下,這些問題都可以避免。

  作者在自行開發的“網頁模糊歸類測試系統”平臺上作了大量對于網頁的歸類測試工作 (詳見附錄) ,測試文檔與訓練網頁都是取自“中國新聞網”新聞網頁。在訓練網頁達到1200篇的時候,歸類準確率封閉測試為85.73%,開放測試為78.82%。雖然這種以模糊綜合評判為核心的算法實現的系統初始化工作比較繁重,但是歸類的結果準確率很高,因此還是非常具有實際應用價值的。

  參考文獻

  [1] 卜東波. 聚類/分類理論研究及其在大規模文本挖掘中的應用, 北京:中國科學院計算技術研究所, 2000.

  [2] 邊肇祺, 張學工. 模式識別(第二版), 北京:清華大學出版社, 2000, 83-159, 284-300.

  [3] 韓正忠, 方寧生. 模糊數學應用, 南京:東南大學出版社 2003.2

  [4] 劉智穎. 自然語言理解與機器翻譯, 清華大學出版社 2001.7

  [5] 劉祖根. 基于WordNet的文本分類技術研究和實現, 長江大學 2002

  [6] 龐劍鋒, 卜東波, 白碩. 基于向量空間模型的文本自動分類系統的研究與實現, 計算機應用研究, 2001, 9(9): 23-26.

  [7] 劉增良. 模糊技術與應用選編, 北京航空航天大學出版社, 1997.2(1) ISBN 7-81012-691-1

  [8] 孫貽源. 模糊數學, 華中工學院出版社, 1984

  [9] 張俊福. 應用模糊數學, 地質出版社, 1988.11

相關論文

在线观看日产精品_成人性生交大片免费看中文网站_神马影院午夜我不卡_亚洲国产精品久久久久久
国产欧美日韩一区二区三区在线观看 | 亚洲视频免费看| 精品91视频| 国产亚洲一区二区三区在线观看| 国产精品视频内| 韩曰欧美视频免费观看| 亚洲第一网站免费视频| 亚洲人成7777| 亚洲欧美日韩国产中文在线| 亚洲欧美日韩国产综合| 久久手机免费观看| 欧美日韩中文字幕在线| 国产精品女人久久久久久| 国产伦一区二区三区色一情| 国产精品资源在线观看| 国产日产欧产精品推荐色| 伊人夜夜躁av伊人久久| 影视先锋久久| 99re8这里有精品热视频免费| 欧美a级一区| 久久综合亚州| 国产一区二区丝袜高跟鞋图片| 亚洲精选久久| 久久夜色精品国产亚洲aⅴ| 久久在线免费视频| 18成人免费观看视频| 久久xxxx| 激情成人综合网| 另类天堂av| 一区二区三区我不卡| 欧美一区二区视频在线| 国产精品日日摸夜夜添夜夜av | 亚洲第一色在线| 欧美专区亚洲专区| 国内揄拍国内精品少妇国语| 欧美一级大片在线观看| 免费成人美女女| 亚洲国产精品久久久久婷婷884 | 久久久精品国产一区二区三区| 欧美激情国产日韩| 亚洲国产精品一区二区三区| 一本色道久久综合亚洲精品不卡| 这里是久久伊人| 欧美日韩一二三四五区| 国产欧美日韩精品a在线观看| 国产在线观看一区| 一区二区三区欧美成人| 先锋影音国产精品| 欧美日韩www| 亚洲午夜伦理| 欧美大片一区| 国模叶桐国产精品一区| 免费人成网站在线观看欧美高清| 国产精品久久久久久亚洲毛片| 国产亚洲欧美激情| 一本色道久久综合狠狠躁篇怎么玩 | 国内成人在线| 在线中文字幕不卡| 欧美日韩成人| 免费在线播放第一区高清av| 国产视频一区三区| 亚洲伦理一区| 午夜精品一区二区三区电影天堂| 在线视频欧美日韩| 国内精品久久久久久影视8 | 久久成人精品一区二区三区| 欧美一级一区| 欧美日精品一区视频| 欧美午夜精品一区| 欧美日韩免费高清一区色橹橹| 亚洲国产色一区| 裸体丰满少妇做受久久99精品| 欧美日韩国内| 亚洲在线国产日韩欧美| 欧美1区3d| 在线看日韩av| 久久精品国产亚洲精品| 亚洲天堂免费观看| 国产一区二区看久久| 欧美尤物一区| 亚洲国产美女精品久久久久∴| 久久精品最新地址| 午夜精品久久久久久久久久久久久 | 亚洲免费视频网站| 在线观看不卡| 99av国产精品欲麻豆| 国产欧美日本| 欧美日韩99| 国产精品久久久久久久久久三级| 亚洲欧美日韩一区在线| 亚洲国产精品日韩| 免费观看成人鲁鲁鲁鲁鲁视频| 久久久一区二区三区| 亚洲精品在线免费| 亚洲电影毛片| 国产欧美日韩专区发布| 在线观看久久av| 国产一二三精品| 欧美午夜在线视频| 欧美精品国产| 国产精品露脸自拍| 欧美国产日韩一区二区| 亚洲欧美日韩精品一区二区| 亚洲高清资源| 亚洲一区二区三| 亚洲伊人伊色伊影伊综合网| 欧美国产精品| 亚洲国产精品久久91精品| 国模私拍一区二区三区| 国产一区二区精品久久| 在线看欧美日韩| 在线中文字幕日韩| 亚洲免费视频观看| 欧美在线一二三区| 亚洲先锋成人| 久久精品国产综合| 欧美国产欧美亚州国产日韩mv天天看完整| 免费在线日韩av| 亚洲区欧美区| 中文一区二区| 亚洲欧洲日本在线| 好男人免费精品视频| 99re热这里只有精品视频| 在线欧美小视频| 亚洲一区二区三区免费视频| 午夜欧美大片免费观看| 国产午夜精品在线| 亚洲美女视频在线免费观看| 在线视频精品一区| 亚洲欧美日韩国产成人| 国产精品欧美经典| 亚洲毛片视频| 久久精品1区| 日韩视频久久| 国产免费亚洲高清| 尤物yw午夜国产精品视频| 亚洲在线免费视频| 在线看国产日韩| 欧美成人午夜激情| 久久午夜色播影院免费高清| 午夜一区二区三区在线观看| 欧美一区久久| 99国产精品99久久久久久粉嫩| 蜜桃av一区二区三区| 在线观看亚洲| 欧美日韩国产首页| 亚洲性人人天天夜夜摸| 欧美精品麻豆| 亚洲欧美中文日韩v在线观看| 亚洲人成欧美中文字幕| 久久亚洲综合色| 在线日韩中文| 亚洲黑丝在线| 国产精品久久久久久亚洲毛片| 中文在线一区| 欧美1区2区视频| 久久永久免费| 91久久国产精品91久久性色| 欧美大片国产精品| 欧美日韩国产一区| 欧美在线观看视频一区二区三区| 狠狠色丁香久久婷婷综合丁香| 国产视频精品免费播放| 欧美日韩午夜在线视频| 久久国产精品99国产精| 欧美日韩1080p| 欧美日韩专区在线| 免费观看在线综合色| 欧美一区二区日韩| 美女成人午夜| 美女999久久久精品视频| 欧美一激情一区二区三区| 久久久久久夜精品精品免费| 亚洲色图在线视频| 一区二区三区不卡视频在线观看| 欧美在线免费视屏| 亚洲午夜视频在线| 日韩午夜免费视频| 另类尿喷潮videofree| 欧美一区二区三区喷汁尤物| 一区二区三区蜜桃网| 亚洲精选中文字幕| 亚洲天堂视频在线观看| 久久久久成人精品| 狠狠色伊人亚洲综合网站色| 亚洲在线国产日韩欧美| 欧美在线关看| 久久国产99| 国内视频精品| 日韩午夜av在线| 一本一本久久a久久精品综合妖精| 在线播放豆国产99亚洲| 亚洲国产精品一区二区尤物区| 欧美在线视频观看免费网站| 久久综合电影一区| 亚洲婷婷综合色高清在线| 欧美日韩成人精品| 久久久蜜桃精品| 免费永久网站黄欧美| 国产精品男gay被猛男狂揉视频|