Python數(shù)據(jù)科學(xué):線性回歸
變量分析:
①相關(guān)分析:一個(gè)連續(xù)變量與一個(gè)連續(xù)變量間的關(guān)系。
②雙樣本t檢驗(yàn):一個(gè)二分分類變量與一個(gè)連續(xù)變量間的關(guān)系。
③方差分析:一個(gè)多分類分類變量與一個(gè)連續(xù)變量間的關(guān)系。
④卡方檢驗(yàn):一個(gè)二分分類變量或多分類分類變量與一個(gè)二分分類變量間的關(guān)系。
本次介紹:
線性回歸:多個(gè)連續(xù)變量與一個(gè)連續(xù)變量間的關(guān)系。
其中線性回歸分為簡(jiǎn)單線性回歸和多元線性回歸。
/ 01 / 數(shù)據(jù)分析與數(shù)據(jù)挖掘
數(shù)據(jù)庫:一個(gè)存儲(chǔ)數(shù)據(jù)的工具。因?yàn)镻ython是內(nèi)存計(jì)算,難以處理幾十G的數(shù)據(jù),所以有時(shí)數(shù)據(jù)清洗需在數(shù)據(jù)庫中進(jìn)行。
統(tǒng)計(jì)學(xué):針對(duì)小數(shù)據(jù)的數(shù)據(jù)分析方法,比如對(duì)數(shù)據(jù)抽樣、描述性分析、結(jié)果檢驗(yàn)。
人工智能/機(jī)器學(xué)習(xí)/模式識(shí)別:神經(jīng)網(wǎng)絡(luò)算法,模仿人類神經(jīng)系統(tǒng)運(yùn)作,不僅可以通過訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),而且還能根據(jù)學(xué)習(xí)的結(jié)果對(duì)未知的數(shù)據(jù)進(jìn)行預(yù)測(cè)。
/ 02 / 回歸方程
01 簡(jiǎn)單線性回歸
簡(jiǎn)單線性回歸只有一個(gè)自變量與一個(gè)因變量。
含有的參數(shù)有「回歸系數(shù)」「截距」「擾動(dòng)項(xiàng)」。
其中「擾動(dòng)項(xiàng)」又稱「隨機(jī)誤差」,服從均值為0的正態(tài)分布。
線性回歸的因變量實(shí)際值與預(yù)測(cè)值之差稱為「殘差」。
線性回歸旨在使殘差平方和最小化。
下面以書中的案例,實(shí)現(xiàn)一個(gè)簡(jiǎn)單線性回歸。
建立收入與月均信用卡支出的預(yù)測(cè)模型。
import numpy as np
import pandas as pd
import statsmodels.a(chǎn)pi as sm
import matplotlib.pyplot as plt
from statsmodels.formula.a(chǎn)pi import ols
# 消除pandas輸出省略號(hào)情況及換行情況
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
# 讀取數(shù)據(jù),skipinitialspace:忽略分隔符后的空白
df = pd.read_csv('creditcard_exp.csv', skipinitialspace=True)
print(df.head())
讀取數(shù)據(jù),數(shù)據(jù)如下。

對(duì)數(shù)據(jù)進(jìn)行相關(guān)性分析。
# 獲取信用卡有支出的行數(shù)據(jù)
exp = df[df['avg_exp'].notnull()].copy().iloc[:, 2:].drop('age2', axis=1)
# 獲取信用卡無支出的行數(shù)據(jù),NaN
exp_new = df[df['avg_exp'].isnull()].copy().iloc[:, 2:].drop('age2', axis=1)
# 描述性統(tǒng)計(jì)分析
exp.describe(include='all')
print(exp.describe(include='all'))
# 相關(guān)性分析
print(exp[['avg_exp', 'Age', 'Income', 'dist_h(yuǎn)ome_val']].corr(method='pearson'))
輸出結(jié)果。

發(fā)現(xiàn)收入(Income)和平均支出(avg_exp)相關(guān)性較大,值為0.674。
使用簡(jiǎn)單線性回歸建立模型。
# 使用簡(jiǎn)單線性回歸建立模型
lm_s = ols('avg_exp ~ Income', data=exp).fit()
print(lm_s.params)
# 輸出模型基本信息,回歸系數(shù)及檢驗(yàn)信息,其他模型診斷信息
print(lm_s.summary())
一元線性回歸系數(shù)的輸出結(jié)果如下。

從上可知,回歸系數(shù)值為97.73,截距值為258.05。
模型概況如下。

其中R值為0.454,P值接近于0,所以模型還是有一定參考意義的。
使用線性回歸模型測(cè)試訓(xùn)練數(shù)據(jù)集,得出其預(yù)測(cè)值及殘差。
# 生成的模型使用predict產(chǎn)生預(yù)測(cè)值,resid為訓(xùn)練數(shù)據(jù)集的殘差
print(pd.DataFrame([lm_s.predict(exp), lm_s.resid], index=['predict', 'resid']).T.head())
輸出結(jié)果,可與最開始讀取數(shù)據(jù)時(shí)輸出的結(jié)果對(duì)比一下。

使用模型測(cè)試預(yù)測(cè)數(shù)據(jù)集的結(jié)果。
# 對(duì)待預(yù)測(cè)數(shù)據(jù)集使用模型進(jìn)行預(yù)測(cè)
print(lm_s.predict(exp_new)[:5])
輸出結(jié)果。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬
-

長安汽車母公司突然更名:從“中國長安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
6月30日立即申請(qǐng)?jiān)囉?> 【免費(fèi)試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機(jī)器人行業(yè)年度評(píng)選
推薦專題
-
2 華為,重大突破!
- 1 人形機(jī)器人“第一股”來了!宇樹科技即將上會(huì)
- 2 全球股市陷AI獨(dú)大結(jié)構(gòu)性瘋狂
- 3 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 4 DeepSeek融資500億,梁文鋒難逃資本局
- 5 谷歌2026 I/O大會(huì)完整回顧:模型依然重要,但智能體正在接管一切
- 6 全球資本,重倉中國機(jī)器人
- 7 Figure AI 交付突破350臺(tái),陪跑特斯拉會(huì)迎來iPhone 時(shí)刻嗎?
- 8 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報(bào)告
- 9 “國產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗(yàn)
- 10 特斯拉宣布監(jiān)督版FSD登陸中國?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





