房地產價格是由多種因素相互作用形成的,是房地產業自然,經濟,社會和管理因素綜合作用的結果。位置因素是影響房地產價格的重要因素。接下來小編簡單介紹一篇優秀數據挖掘電力論文。
1項目實施過程
項目實施主要包括以下三個階段:
1)用爬蟲知識從“房天下”網站爬取房源信息。
2)利用獲得的房源信息在百度API獲取所有房源周邊學校,醫院,車站和超市的數量。
3)對數據進行歸一化處理。
4)按照手工標記的方法,將房子按房價分為(0,7000],(7000,12000],(12000,17000],(17000,22000](22000,40000]五類。
5)創建KNN,決策樹,貝葉斯三種分類器,并使用訓練數據進行訓練。
6)利用測試集預測,計算模型整體的準確率和召回率,評測模型。
2數據獲取階段
1)獲取初始數據,該階段主要有兩個階段。第一個階段是房源搜索階段,該階段使用Spider從網站房天下獲取在售樓盤的名稱,地址和價格。第二階段調取百度地圖API GeoCoding進行經緯度轉換。Geoeoding API已全面支持HTTP/HTTPS兩種請求形式。
2)歸一化處理,將四維數據每一維度的數值總和視為1,每一維度數值占四個維度數值總數的比例用來表示該維度數據。
3分類階段
該階段采用KNN,貝葉斯,決策樹三種方法構建分類器,分類結果如下:
4分析與討論
從結果來看,決策樹表現最佳,精確度有0.69,所以,決策樹是我們應該選用的方法。我們認為選取的特征(教育質量,交通條件,醫療條件,生活配套)模糊和有限是造成預測精確度不高的主要原因。如教育質量不能單純用學校數量來衡量,學校質量同樣重要;超市數量不能代表一個地區的生活配套質量,還應包括餐館、公園等因素。
除本文選取的四個房價影響因子外,影響房價的因素還有很多,如地區居民收入、地方政策、環境質量和房地產生產成本、質量、品位、房型、結構、朝向等內在因素。
閱讀期刊:數據通信
《數據通信》(雙月刊)創刊于1980年,由信息產業部數據通信科學技術研究所主辦。本刊主要內容涉及下一代網絡技術、寬帶網絡技術、多媒體通信、無線通信、網絡與信息安全、數據處理、數據傳輸、測試與維護。榮獲信息部優秀科技期刊二、三等獎、中文核心期刊(1992)。
相關論文