四、學習

壹、學習概述

一、定義:學習是指因經驗而導致行為或思想產生較為長久改變的歷程與結果。


二、闡釋

  1. 學習是因經驗而產生的。 
  2. 學習是行為或思想的改變。
  3. 學習是相對持久的改變。
  4. 學習是歷程也可以是結果。
  5. 學習是中立詞彙。學好學壞都是學習。

三、學習的分類
(一) 非聯結學習(non-associative learning)

  • 個體因應單一環境事件刺激,而在行為反應的強度上發生變化。包含兩種:(Eric Kandel發現)
    • 習慣化(habituation):個體多次暴露於無傷害性的刺激,而對該刺激的反應減弱的現象。
    • 敏感化(sensitization):個體暴露於有傷害性的刺激,而對環境的反應增加。

(二) 聯結學習(associative learning)

  • 將一事物與另一事物產生聯繫的學習。
  • 行為學派的核心理論
    • 古典制約(classical conditioning)
    • 操作制約(operant conditioning)

(三) 認知學習(cognitive model of learning)

  • 個體通過思考,以了解事物的意義、關聯或價值,從而造成信念或知識上的長久改變。

貳、古典制約

classical conditioning

一、源起:
Ivan Pavlov做消化道研究時發現,小狗聽到人的腳步聲會分泌唾液。


實驗過程:

  • 自變項:鈴聲(CS)+食物(UCS)配對的次數
  • 依變項:小狗口水的CC數
    鈴聲和食物配對次數越多,小狗口水是否流越多?

二、相關用語

  1. 古典制約的意義:
  • 一個原本中立的刺激,和一個能引起特定反應的刺激彼此多次、相近、相伴出現,使得個體對原本中立的刺激產生特定反應的過程。
    • 原本中立的刺激:制約刺激(conditioned stimulus, CS)
    • 能引發特定反應的刺激:非制約刺激(UCS)
    • 受非制約刺激引起的反應:非制約反應(UCR)
    • 經學習後被制約刺激引起的反應:制約反應(CR)

  1. 結論:
  • 鈴聲與食物多次相近相伴出現,使小狗學會兩者的聯繫,造成刺激替代(stimulus substitution),即制約刺激(鈴聲)取得非制約刺激(食物)的特性,而代替食物引發流口水的反應。

  1. 另一個古典制約例子
  • John Waston 恐懼制約

三、古典制約的基本現象
(一) 消弱(extinction)

  • 當一個制約刺激已能引發制約反應,若此時不再使非制約刺激與制約刺激相伴出現,則多次嘗試後,制約反應將逐漸減弱,直至不再對制約刺激進行反應。

(二) 自發恢復(spontaneous recovery)

  • 經消弱學習一段時間後,制約刺激又單獨出現,制約反應重新出現的情形。
  • saving:使制約刺激與非制約刺激再次相近相伴出現,則口水量將重新增多,且累積的比一開始快。

(三) 刺激類化(stimulus generalization)

  • 與制約刺激性質相同的新刺激,不需經過制約歷程就能直接引起制約反應。
  • 類化梯度(gradient of generalization):新刺激與既有的制約刺激性質越相近,引發制約反應的程度越高。

(四) 刺激區辨(stimulus discrimination)

  • 若經辨別練習,只在特定的CS後呈現UCS,個體可學會只對特定刺激進行反應,類化梯度會消失。

(五) 高層制約(higher-order conditioning)

  • 當一個制約刺激已能穩定引發制約反應,此制約刺激本身可以做為一個非制約刺激,當作其他制約刺激形成的媒介。
  • 越高層制約刺激所引發的制約反應越小;通常第四層以上難以形成。

BOX:合欲制約&嫌惡制約

  • 合欲制約(appetitive conditioning):CS伴隨個體喜歡的UCS,例如:鈴聲+食物。
  • 嫌惡制約(aversive conditioning):CS伴隨個體厭惡的UCS,例如:鈴聲+電擊。

四、CS和UCS出現的順序之效果
(一) 常見的四種安排

  1. 延宕制約(delayed conditioning):制約刺激出現,尚未停止前,非制約刺激隨即出現。也是最常見的制約方式。
  2. 痕跡制約(trace conditioning):制約刺激出現並停止後,非制約刺激才出現,但兩者出現間隔時間短。
  3. 同時制約(simultaneous conditioning):制約刺激和非制約刺激同一時間出現。
  4. 後向制約(backward conditioning):非制約刺激先出現,制約刺激隨後才出現。

效果:延宕制約 > 痕跡制約 > 同時制約 > 後向制約

五、古典制約形成的重要因素
(一) 重要因素

  1. 頻次律(law of frequency)
  • CS+UCS兩者共同出現的次數
  1. 接近性(contiguity)
  • CS+UCS 兩者出現時間的相近
  1. 關聯性(contingency)、可預測性(predictability)
  • CS+UCS共同出現的程度,意即CS的出現是否能有效預測UCS的出現。

(二) 有關實驗

  1. Robert Rescorla關聯性實驗
    (1) 操弄聲音(CS)對電擊(UCS)的預測性。
    (2) 啟示
  • 可預測性比頻次律和接近性更重要。
  • 認為在古典制約中有涉入認知歷程,能判斷CS+UCS是否相伴出現。
  1. Leon Kamin阻斷(blocking)實驗
    (1) 讓老鼠接受組合式的制約刺激(compound CS)
    (2) 結論:
  • 當個體已學會一個CS+UCS關聯,就不容易習得CS2+UCS的關聯,因為失去了突然性

六、古典制約的先天傾向(biological constraints)

  1. John Garcia 味覺嫌惡實驗(taste aversion)
  2. 結論與啟示
  • CS+UCS只配對一次依然能形成古典制約。
  • CS出現後隔很久才出現UCS,依然能形成古典制約。
  • CS+UCS的聯結學習並不等勢。
  • 準備程度(preparedness):人和動物對環境中某些刺激與結果有天生預備好的學習傾向。
  • Garcia 效應:個體吃了一個東西之後產生劇烈的身體不適,從此不願意再吃同一樣食物。

  • 等勢原則(equipotentiality):相信各種CS+UCS的聯結學習只要出現的順序和時間間隔合適,任何事物都能形成聯結學習。

七、古典制約的其他要點或應用

  • (一) 制約情緒反應(conditioned emotional response,CER)
    • 個體對一個中性刺激經古典制約的歷程而習得的情緒反應,例:little Albert、Rescorla的實驗。
  • (二) 廣告與古典制約
  • (三) 戀物癖(fetishism)
  • (四) 心理神經免疫學(PNI)
  • (五) 藥物濫用與古典制約
    • Shepard Siegel提出
    • 長期使用藥品,身體會建立耐藥性(tolerance),若在固定的地點用藥,身體的補償反應(compensatory response)會最大,使身體能抵抗藥物較大的劑量。
  • (六) 反制約(counterconditioning)
  • (七) 系統減敏感法(systematic desensitization)
    • 南非醫生Wolpe(1950)提出,是一種行為治療技術
    • 實施步驟:建立恐懼階層→放鬆訓練→想像試驗→實務情境練習

參、操作制約

operant conditioning

一、操作制約的先聲-Thorndike的嘗試錯誤學習

  • Edward Thorndike (1898)的迷籠實驗(puzzle box)
    提出工具制約(instrumental conditioning)

(一) 迷籠實驗

  1. 將貓咪放進設計過的籠子中,依變項是看貓咪校花多久時間才能「採到籠中踏板、打開門、出來吃魚」
  2. Thorndike 發現:隨著貓嘗試的次數增加,貓成功從籠子出來所需的時間越來越少。
  3. 嘗試錯誤學習(trial-and-error learning):個體在特定刺激情境中,透過各種嘗試,在眾多嘗試中選擇其一與之產生穩定連結。

(二) 啟示:

  1. 效果律(law of effect):刺激與嘗試的連結,受到個體反應的結果決定。若結果滿足個體需求,則聯結將會增加,反之則減弱。
  2. 學習是漸進的歷程,而非突然洞察。(迷籠實驗)
  3. 個體學習直接來自環境,不需要推理思考。
  4. Thorndike 認為所有哺乳動物的學習機制都一樣,包含人類。

二、B.F. Skinner與操作制約

(一) 相關術語

  1. 操作制約箱(operant chamber)
  • 觀察受試者特定行為環境回饋間的關係的裝置,也稱為skinner box
  1. 操作行為(operant behavior)
  • 受試者主動與環境產生互動,而受環境回饋結果影響的行為。
  1. 增強(reinforcement)、增強物(reinforcer)
  • 正增強、負增強
  • 增強:個體在環境中操作,環境回饋的結果使得個體特定操作行為次數增加的程序。
  • 增強物:在特定行為出現後隨之呈現,造成個體特定操作行為次數增加之事物。
  1. 處罰(punishment)、處罰物(punisher)
  • 積極處罰、消極處罰
  • 處罰:個體在環境中操作,環境回饋的結果使得個體特定操作行為次數減少的程序。
  • 處罰物:在特定行為出現後隨之呈現,造成個體特定操作行為次數減少之事物。

(二) 聯結之學習

  1. 古典制約:CS+UCS有關。
  2. 操作制約:操作行為和附隨結果或後效(contingent consequence)的關聯。

(三) 操作制約的程序-以「正增強」為例

  1. 確認受試者學習的操作行為
  2. 選擇適合的增強物
  3. 進入skinner box前,先將增強物之事物進行剝奪,例如:先餓肚子24小時。
  4. 建立行為基線(baseline):先觀察未受增強之前,操作行為在單位時間內的出現次數,基線水準(baseline level)。
  5. 開始對操作行為進行增強,並記錄操作行為的變化情形。
  6. 停止對操作行為增強,紀錄操作行為的變化情形。

三、操作制約的基本現象

(一) 消弱(extinction)消弱陡增(extinction burst)

  1. 消弱:操作制約建立後,個體呈現操作行為不再提供增強物,則該操作行為會逐漸消失,直至不再反應。
  2. 消弱陡增:消弱初期,個體的操作行為會大量出現。

(二) 自發恢復(spontaneous recovery)

  • 當個體的操作行為消弱之後,隔一段時間,重新放置到先前的制約環境中,原本被消弱的操作行為會自發性地出現,不需重新經歷制約歷程。

(三) 刺激類化(stimulus generalization)
個體經增強而對某特定刺激進行操作行為後,類似該特定刺激的其他新刺激,不需經歷操作制約的歷程,能直接對新刺激進行反應。且新刺激與原刺激越相似,引發操作行為次數越多。


(四) 刺激區辨(stimulus discrimination)
個體經增強而對某特定刺激進行操作行為後,經辨別訓練,可學會僅對特定刺激反應,而不對其他刺激反應。

四、增強作用和增強物

(一) 分類

  1. 以增強物的移除或呈現區分
    增強作用係指行為的結果得到環境的正向回饋,從而增加日後在相同環境表現同一行為的機會。
    (1) 正增強(positive reinforcement)正增強物(positive reinforcer)
  • 可欲事物的呈現,使操作行為次數增加。
  • 可欲事物即為正增強物

(2) 負增強(negative reinforcement)負增強物(negative reinforcer)

  • 嫌惡事物的移除,使操作行為次數增加
  • 嫌惡事物即為負增強物
  • 逃脫學習(escape learning):習得一個操作行為,藉以逃離一個持續呈現的嫌惡刺激。

  1. 以增強物是否滿足個體的身體需求區分
    (1) 初級增強物(primary reinforcer) 形成初級增強作用
  • 增強物滿足的是個體身體需求(餓、渴、不疼痛等),例如:水、食物

(2) 次級增強物(secondary reinforcer) 形成次級增強作用

  • 增強物為後天而習得其增強性質者,例如:錢、獎狀、代幣、他人認可等
  • 次級增強物也稱作制約增強物(conditioned reinforcer),係因原本中立的次級增強物,經常與初級增強物配對出現而取得其增強性質,是古典制約的結果。

(二) 增強物的安排

  1. 操弄操作行為與負隨效結果的相隔時間
    (1) 立即增強(immediate reinforcement)
    操作行為出現後,立即施予增強物的制約方式,此學習效果較佳。
    (2) 延宕增強(delayed reinforcement)
    操作行為出現後,延遲時間才施以增強物,此學習效果較差。

  1. 操弄增強物出現的連續程度,稱為增強時制(或 強化程式,schedule of reinforcement),分為兩類:
    (1) 連續增強(continuous reinforcement,CRF):1:1
    每次操作行為出現皆得到增強物。此方式使個體學習行為的速度較快,但也容易消弱。
    (2) 間歇增強(intermittent reinforcement)
    部分增強(partial reinforcement) 
    個體出現操作行為,僅選擇其中部分施以增強物。使用的增強物較少,形成的學習卻不容易消弱,此為部分增強效應PRE。分為4種

間歇增強(intermittent reinforcement)
部分增強(partial reinforcement)分為四種:

  • 固定比率(Fixed-Ratio,FR) 例如:按N件計酬
    • 定義:操作行為每出現若干次後,固定施以增強物,例如:老鼠固定壓15次桿子得到一食物,寫做FR15。
    • 特徵:形成高的反應率,不易消弱,得到一個增強物後,會暫停反應(比率越大停越久)。

  • 變異比率(Variable-Ratio,VR)
    • 定義:操作行為平均出現若干次後,不固定的施予增強物,例如:老鼠平均按桿子15次後得到一次食物,寫做VR15。
    • 特徵:形成最高的反應率;最不易消弱;增強後不會停頓。

  • 固定時距(Fixed-Interval,FI)
    • 定義:固定時間給予增強物,每隔20秒給一次增強物,寫做FI20。
    • 特徵:反應次數與增強務無關;形成曲線成荷葉狀(貝殼狀),獲得增強後反應率下降,待下一增強物將至時反應率陡增。

  • 變異時距(Variable-Interval,VI)
    • 定義:不固定時間給予增強物,平均20秒得到一個增強物,寫做VI20。
    • 特徵:反應次數與增強也無關,產生中等反應率,增強後反應不停頓。

比較引發反應率由高到低:VR→FR→VI→FI→CRF

BOX:處罰(punishment)
一、 定義:使行為發生次數減少的行為程序。當特定操作行為出現後,伴隨嫌惡事務的呈現或可欲事務的移除,使個體習得操作行為與附隨結果的關聯,藉以減少該行為出現的次數。

  • 處罰的意義:是一個「有效」的措施。
  • 操作行為經驗到負面結果,使行為減少。
  • 處罰不是負增強。

二、分類:
(一) 積極處罰(positive punishment)、施予式處罰:個體從事一操作行為後,對其施予嫌惡事物,使個體後來從事同一行為次數減少。
(二) 消極處罰(negative punishment)、剝奪式處罰:個體從事一操作行為後,對其移除可欲事物,使個體後來從事同一行為次數減少。


三、有效處罰的要素
(一) 強度夠:強度越大,持續效果越久,若逐次提高強度會建立耐受性。
(二) 不當行為和處罰須具備接近性
(三) 連續處罰比間歇處罰有效(跟增強相反)。


四、處罰的作用與缺點

  • 處罰使被處罰者經歷到負面情緒。
  • 處罰也有刺激區辨,個體能了解有時候出現不當行為也不會面臨處罰。
  • 對處罰有關的事情進行類化,例如:被處罰而不喜歡學校。
  • 處罰只是讓被處罰者知道什麼事不能做,在學習意義上較消極。
  • 處罰,有時是一種攻擊行為的示範。

五、操作制約的先天傾向
(一) 本能性的漂移(走鐘)(instinctual drift)

  • Keller Brenland & Marian Breland提出。
  • 經增強而習得的行為發生變化,此變化會朝向某個相似的本能行為。
    (二) 結論:
  • 操作制約中,操作行為與附隨結果的關係若與本能行為越接近,則此行為越容易通過操作制約形成。
  • 個體在操作制約的習得和保留皆受生物本能的影響。

六、操作制約的其他要點或應用
(一) 迷信行為(superstitious behavior)

  • 迷信行為是操作行為和隨機可能發生的附隨效果形成聯繫的結果。
    (二) 塑成(逐步養成,shaping)
  • 將目標行為分割成若干的細目,再逐次達到目標行為。透過連續漸進的方式,一面增強後續的操作行為,一面消弱先前的操作行為直到目標行為出現。
    (三) 連鎖(chaining)
  • 目標較複雜、須由一連串累加動作才能完成時,將目標行為分解成若干個反應,再依次、逐步增強各個反應,使之連貫成一完整的行為目標。依連鎖的方向,可區分為:
    • 反向連鎖(backward chaining)
    • 正向連鎖(forward chaining)

四、認知學習

cognitive learning

  • 非傳統行為主義的學習,不強調學習過程中的外在因素,著重於學習者的心智歷程。

一、頓悟學習

insight learning

  • Wolfgang Kohler(1920)猩猩multiple stick problem 實驗。
  • 突然了解環境眾多刺激的彼此關聯,從而採取一有效的行動。

二、與表徵使用有關

representation

(一) 方位實驗(place learning)

  • Tolman & Honzik飢餓老鼠跑迷宮實驗
  • 老鼠知道迷宮布局,認為老鼠心裡有一個迷宮的圖像表徵,稱為認知地圖(cognitive map)

(二) 潛在學習(latent learning)

  • Tolman & Honzik 三群老鼠跑迷宮
  • 操弄酬賞的方式,觀察老鼠跑錯迷宮的次數
  • 結論:發現老鼠已有了學習,但因外在環境誘因不足,而無法顯現、無法從外顯行為觀察到的現象,稱為潛在學習(latent learning)。.

(三) 八爪迷宮(radial arm maze)

  • 研究老鼠空間記憶能力

三、解釋過去經驗

(一) 習得無助(learned helplessness)

  1. Martin Seligman & Maier(1967) 使不同組別的小狗經歷能or不能控制的負面事件,看不同組別的小狗在後來類似的負面事件中的學習表現是否不同。
  2. 結論:個體對負面事件的解釋而非負面事件本身,對個體未來的學習造成影響。
  3. 習得無助係指個體發生無可控制或無法避免的負面情境,在未來類似的負面情境中放棄反應的一種學習現象。

(二) 解釋風格(explanatory)或
歸因風格(attributional style)

  1. Seligman認為人們會對發生在自己身上的事件進行解釋(歸因),解釋的結果會影響其行為和情緒,且每個人在解釋事情時有基本穩定的傾向,就是解釋風格。共有3個方面,可形成悲觀或樂觀歸因。
  • 普遍性(pervasiveness):把原因歸於特定、小範圍;或是普遍(global)、大範圍。
  • 穩定性(stability):相信事情是短暫的;或是持續較久的。
  • 個別性(personality):事情的原因是自己造成的;或是環境造成的。

四、觀察學習

(observational learning)

(一) 指個體通過觀察他人而進行學習的歷程。
(二) 社會學習論(social learning theory)

  1. Albert Bandura - Bobo doll experiment(1965)
  2. 觀點:
  • 人的學習過於廣泛不可能事事從親身經驗而增強習得。
  • 所有可透過直接經驗習得的行為,皆可透過間接經驗習得。即觀察他人行為受環境回饋的結果是個體的學習來源。
    • 替代增強(vicarious reinforcement):楷模一項行為受到獎勵,則觀察者日後出現此一行為機會增高。
    • 替代處罰(vicarious punishment):楷模一項行為受到處罰,則觀察者日後出現此一行為機會減少。
  • 觀察學習(observational learning)或替代學習(vicarious learning):個體透過觀察他人行為的結果,從而產生的學習。
  • Bandura認為學習也可以是內在的變化,比如:偏好、態度、信念、預期等。當這些變化發生不一定立刻造成行為改變,但若環境提供適當誘因,這些內在變化才會轉變成可觀察的行為

  • 觀察學習形成的過程
    • 注意(attention):注意到楷模的行為。
    • 保留(retention):記住楷模的行為。
    • 再生(reproduce):觀察者成功重新表現出記住的楷模行為。
    • 動機(motivation):情境中有誘因使觀察者表現出楷模行為。(預期酬賞)

(三) 觀察學習的神經基礎-鏡像神經元(mirror neuron)

  1. Rizzolatti等人發現,存於額葉的前運動皮質(premotor cortex)。是個體在從事某行為或看到、聽到別人從事某行為都會firing的神經元,就好像鏡子一樣自動反應外在事件。
  2. 鏡像神經元與觀察學習
  • 使用TMS穿顱磁刺激干擾觀察者的運動前皮質,則他後續的觀察學習結果會較差。故觀察學習涉及鏡像神經元的運用。
  1. 鏡像神經元對社會認知的重要性
  • 心理學家認為鏡像神經元是人類認會認知的生理基礎。(在人際互動中理解他人意圖、知覺、感受的能力,溝通、模仿、合作等社會行為)
  • 自閉症兒童無法了解他人意圖與情感,亦即心智論(theory of mind)能力不彰。Ramachandran發現自閉症兒童的鏡像神經元功能有缺陷,為破鏡理論(broken mirror theory)

(四) 收看暴力影視會導致暴力行為?

  • 研究結果:收視暴力影視較多者,長大自評及他人評價的暴力程度越高,呈正相關。有關聯但不代表有因果。

(四) 剝奪(deprivation)和饜足(satiation)

  • 剝奪:在進行正增強之前,使個體長時間不接觸增強物,使個體處於對增強物的渴望狀態。
  • 饜足:使個體暴露於過量的增強物中,使增強物不再具有增強效用。

(五) 普力麥克原則(Premack principle)

  • 1959年有David Premack提出,係指個體偏好程度高的活動可以做為偏好程度低的活動之增強物。意即先要求從事偏好低的活動,再以偏好高之活動增強。

(六) 暫停法(timeout,隔離法)

  • 消極處罰(剝奪式處罰)的運用。要求短暫離開正增強物的刺激情境。

(七) 反應代價(response cost,反應犧牲)

  • 消極處罰(剝奪式處罰)的運用。移除一個可量化的可欲事物,減少個體重複發生不當行為。

(八) 代幣制度(token economy)

  • 次級增強的運用,經古典制約學習,代幣取得初級增強物的獎勵性質,成了次級增強物。

(九) 過度校正(overcorrection)

  • 施予式處罰的運用。個體出現不當行為後,要求他從事後續復原行為遠遠超過不當行為帶來的損害。