給力萌典:動詞分類庫建置計劃
編輯歷史
| 時間 | 作者 | 版本 |
|---|---|---|
| 2017-07-03 09:07 – 09:07 | r0 – r1 | |
顯示 diff+ 給力萌典:動詞分類庫建置計劃
+
+ 網站位址:http://dodo.moedict.tw/
+ 使用介紹:
+ 簡報說明:線上簡報分享
+ hackath9n成果報告:https://www.youtube.com/watch?v=FsP-IUpPZio
+
+ 感謝 Audrey Tang提供萌典動詞字典內容,並神速建置網站,以及 ET Blue也是神速測試與回饋。
+ *大家都是神速啊可是我hackpad寫好慢,而且介面說明也還沒改 QQ
+
+ 歡迎大家共筆參與!!! :smiley:
+ Hackpad 第1.、2. 兩大項的內容只是為了分享。如果有任何技術實作上的建議可直接跳到第3. 部分喔 :p
+ https://g0v.hackpad.com/s1olVpQVFRS#:h=3.-目標與進程
+
+
+ *1. 為什麼發起給力萌典?
+ 基於萌典「還文於民」的精神,我們希望萌典不僅是一本「字典」以供查詢。萌典作為公民可共同取用的公開資訊,我們希望萌典可以發揮更大的用處,讓公民共同參與、協作。
+
+ 事實上,萌典在2013年已發起國語辭典啄木鳥活動,即是這樣的想法。透同一個平台,讓公民針對引文相同而用字卻不相同的條目,共同進行勘誤與校正。啄木鳥活動指出了萌典的內涵:「語言文字」這項資產,並非只是單向讓公民查詢使用;由於公民可以共同參與、協作,因此全民共享的知識可以不斷地有新的內容,而不必透過學者專家的壟斷。
+
+ 1.1 為什麼不要求學者專家做完開放就好?
+
+ 我們可以假想上述的情況,如果透過學者專家來執行,將會是什麼樣的情形?可以想見,學者專家會編列預算,找工讀生來加以編輯字典內容,並且將成果作為自己的研究發表。這麼一來,「語言文字」這樣的資產,將作為學者專家所獨佔的智慧財產權,因此學者就未必有意願開放資料內容,並且也可能將這項資產作為營利用圖。
+
+ 然而,學者專家編列預算找工讀生來產出這些知識,是透過自己的資本轉換而成的嗎?並不是。事實上,學者專家的預算仍來自政府,即公民的納稅付出;而公民的資本雖然投資在學者專家的研究上,最後卻被學者專家獨佔,而不能取得新的知識內容,這是不公平也是不正義的作法。知識之所以屬於公民,乃是因為知識的來源、生產以及結果,往往都是整體社會共同付出所致。因此,除非學者專家響應學界所發起的機構典藏,將所有研究成果授權所屬機構「全數公開」;否則,學者專家的獨佔,即竊佔了納稅人的資本與產出。
+
+ 為了避免知識獨佔的情形,我們認為:如果有好的架構和平台,可以透過公民參與、協作來完成,我們根本不需要花費納稅人的金錢,即可讓知識內容達到更好的生產目的:校正、分類,以及更為便利的使用。
+
+ 因此,所謂「資訊公開」並非只是「要求學者專家公開」,而是完全開放讓公民參與知識內容的生產。所以公民也不再只是「知識的使用者」,而是「知識的生產者」。
+
+ :smiling_imp: 是的沒錯,這就是自己的語言自己做!!! :smiling_imp:
+
+ 1.2 為什麼編輯字典內容要選擇句型?
+
+ 給力萌典的開發項目,著重於當代國語的使用內容,因此給力萌典不同於國語辭典中所引用的古典文獻。傳統古典文獻有版本依據,可資考據、比對、校正與查詢,但當代國語卻是日常生活中不斷變動的內容。對於所有華人所使用的國語而言,我們應該思考一個問題:如何讓語言學習者可以輕易地掌握該語言的結構,並說出正確、可理解的句子?
+
+ 為了讓語言學習者可以輕易地掌握語言結構,並說出正確、可理解的句子,我們就必須相信一個「好的架構」可以達到上述目標,這樣就可以把「好的架構」介紹給語言學習者。然而,整理出「好的架構」並不是一件容易的事。因為,對於國語的母語使用者來說,國語是三歲以前就會自然習得的語言,從來沒有「刻意、有意識地」透過學習而得:包括背單字、記文法,以及大練繁複、枯燥的練習。對於國語的母語使用者來說,我們其實也未必知道,什麼是國語的「好的架構」。
+
+ 為了確立這項「好的架構」,語言學家喬姆斯基指出一個好的研究方法,以符合母語使用者的語言心理狀態——內省法。內省法原本是一種哲學方法,但喬姆斯基於50年代在語言學領域展開認知革命之後,將這方法延伸為語言分析的重要方法。其最重要的核心為:母語使用者對於自身語言有絕佳的語感,以判斷什麼是正確、可理解的句子,而什麼不是。換而言之,「好的架構」就是要透過母語使用者的判斷,來確保該架構的正確性。如果在該架構的運算過程當中,所得出的所有句子「都是母語使用者認為正確、可理解」的句子,那麼該架構就是有效的。
+
+ 舉例來說,我們會知道「我喜歡看書」是一個「正確、可接受」的句子,但「書我看喜歡」則不是,而這是一個母語使用者可以立即判斷的。然而,若要透過一個好的分析以整理出架構,就必須符合科學方法中的實驗標準,也就是「排除條件」以確立實驗對象是否會產生預期的作用。在上述的例子,我們可以排除許多變因(參數),只留下一個。比如「我喜歡看書」和「我愛看書」兩個句子,變因只有「喜歡」和「愛」在同一個位置中的不同;由於這兩個句子都是「正確、可接受」的句子,因此我們知道這兩個詞可以暫且歸為同一個單位,即「動詞」。或者「我愛看書」和「我愛」兩個句子,變因只有「愛」後面的位置是否應「填入一個單位」這樣的不同;由於只有「我愛看書」是「正確、可接受」的句子,因此我們知道「愛」這個動詞,後面一定要「填入一個單位」,才符合母語使用者的語感判斷。
+
+ 對於一個外語學習者來說,他就是要學母語使用者這種語感判斷;對於程式應用來說,語言翻譯或人工智慧就是要展現出這種語感判斷。因此上述的例子所指出的判斷,就是「好的架構」之所以有效的依據,也是目標。
+
+ 這就是為什麼給力萌典要「選擇句型」,因為「選擇句型」就是讓母語使用者,即從小就說國語的所有公民,依據自己的語感判斷來確立「好的架構」。這麼一來,「好的架構」就會確保有效地應用在更多領域,包括外語學習、語言翻譯,或語言資訊處理。
+
+ 1.3 為什麼要透過多人選擇句型?
+
+ 經1.2我們會發現,讓母語使用者判斷「正確、可理解」的句子,一反過去我們認為「字典所規範的內容才是正確的」這樣的觀點。事實上,由於傳統字典涵蓋太多古代中文的語言內容,這些內容在現代國語的使用過程中,未必是「正確、可理解」的,也因此這些字典內容未必讓語言學習者可以迅速、有效地掌握現代國語;相反的,由於語言是不斷變遷的,我們應該要相信母語使用者的語感直覺,讓母語使用者的語感發揮最大效用,以建立便於公民使用的「好的架構」。
+ *關於古代中文(古典文獻)和現代國語在「正確、可理解」的區別,可參考 3.1.3 的 e.「欲窮千里目」的「窮」這個例子。
+
+ 在學者專家的語言分析過程中,這種仰賴「母語使用者的語感判斷」過程,即仰賴學者專家自己。然而,學者專家的判斷未必符合現代國語的使用現況。如果我們在「選擇句型」的過程中,只讓學者專家來判斷,他們很可能判斷出「我在讀書」這種「在字句」是不正確的,但現代國語的日常使用中,這句子卻極其常見,並且人人都覺得「正確、可理解」。誠然,保持和社會互動良多,並且持開放心胸的學者專家,也可以理解「我在讀書」是「正確、可理解」的句子;然而,如果讓使用者一同參與判斷,透過資訊的累積與數據的呈現,來指出現代公民正在使用的、活絡的、屬於公民自身的語言事實,以建立起語言學習者容易掌握並應用的「好的架構」,這不是比學者專家的判斷更有效嗎?
+
+ *2. 給力萌典的操作設計
+ 本說明搭配線上簡報效果更好!
+
+ 給力萌典希望透過「好的架構」,透過公民協作,一同編輯字典內容。主要的核心架構即為「國語與格轉換」:
+ A我送一本書給你←→B我送你一本書
+ A我寫一封信給他←→B我寫他一封信
+ A小張提供吃穿給弟弟←→B小張提供弟弟吃穿
+
+ 上述轉換可得知兩種句型的必要條件:
+ 1. 動詞為及物動詞
+ 2. 動詞在整個句子裡,一共合併了三個名詞:1個主詞和2個受詞
+
+ 在這個「國語與格轉換」的架構下,有許多句子不能這樣轉換,這是因為動詞類別不同的緣故:
+ A我丟一顆球給他 ≠ B我丟他一顆球
+ A我拿十塊錢給他 ≠ B我拿他十塊錢
+ A我通知這個消息給他 ≠ B我通知他這個消息
+ A媽媽限兩小時給他打掃房間 ≠ B媽媽限他兩小時打掃房間
+ A葉問打十拳給他 ≠ B葉問打他十拳
+
+ 以上,只要讓國語的母語使用者(公民)一起來選擇「A句或B句,是不是正確、可理解的句子」,就可以建立「給力」的「好的架構」。
+
+ 本項架構為語言學家Ray Jackendoff所建置的模型,該研究主張人類的語言結構是基於大腦長年演化的認知結構而產生。上述「與格轉換」所呈現的A句與B句,即該模型的「時空的轉換」與「本質的改變」兩個認知面向。A句「時空的轉換」呈現「致使一個受詞在時間或空間上移動到另一個受詞」,B句「本質的改變」呈現「致使一個受詞在本質上改變而擁有另一個受詞」。
+
+ 由於人類大腦長年演化的認知結構,是所有人類都具備的。因此我們可以理解所有人類語言都具備「與格轉換」的上述架構。線上簡報可見中文和英文都可以用同樣的架構來理解,因此這項架構必然可以讓外語學習者更容易以自己的語言來掌握,也容易應用在語言翻譯與語言資訊處理上。
+
+ 因此根據「與格轉換」架構,及物動詞是否滿足架構中的兩個面向,則產生2x4=4種結果。因此透過公民協作「選擇句型」,我們可以分出「與格轉換」的四類動詞。
+ ★架構圖詳見線上簡報 pp.16
+
+ *3. 目標與進程
+
+ 3.1 20140622 hackath9n
+ 本階段為給力萌典BETA,篩選出2300筆動詞作為第一階段「初校」。
+ 成果報告:https://www.youtube.com/watch?v=FsP-IUpPZio
+
+ *3.1.1 網站建置
+ 感謝 Audrey Tang在hackath9n不到兩小時,就依照「與格轉換」架構,建置好網站了!!!!!
+ 我們由萌典選出動詞,透過網站讓使用者「選擇句型」,以判斷該動詞屬於「與格轉換」架構裡,四類動詞中的其中哪一類。
+
+ 20140625網站介面修改:
+ 1(按鈕顏色黃)「(句子)」(搜尋扭)
+ 2(按鈕顏色藍)「(句子)」(搜尋扭)
+ 3(按鈕顏色綠)兩個都可以填入同一個名詞,而且意思都一樣。
+ 3(按鈕顏色綠)兩個都可以填入同一個名詞,但是意思不一樣。
+ 4(按鈕顏色紅)兩個都不可以填入名詞,因為這個動詞本來就不能接一個受詞。
+ 4(按鈕顏色紅)兩個都不可以填入名詞,因為這個動詞不是現代國語的動詞。
+ 無法判斷(按鈕刪除)
+
+ *3.1.2 第一階段動詞篩選標準
+ a. 單音節動詞
+ *e.g. 「放置」屬於雙音節動詞,暫且不作為第一階段動詞分類庫的目標。
+ b. 排除破音詞
+ c. 篩選出「主要義項為動詞」的條目。
+ *e.g. 條目「打」顯然為動詞,但同一條目另一義項「一打筆」為名詞。假若我們完全排除多個義項的條目(多義詞),則剩下來的動詞全為冷僻的古代中文動詞。因此 Audrey Tang另寫程式以演算「該條目具動詞性質」的積分,積分顯示為一定標準以上者,列入給力萌典BETA的測試。
+
+ *3.1.3 可預知的情況
+ a. 為避免不同義項可能橫跨不同詞類,會產生誤會。因此在網頁上列出詞義與舉例。
+ *e.g. 「花」有名詞「紅花」與動詞「花錢」兩個義項,如果只看到「花」,使用者會容易想到名詞。因此要把詞義和舉例放在頁面上。
+ *
+ b. 目前2300筆動詞是以程式演算「該條目具動詞性質」的積分而得出,因此「並非所有的條目都是動詞」。
+ *e.g. 測試時有遇到這例子。「畢」:古代打獵用的網,有長柄。
+ *
+ c. 與a.相同的情形,就算同一條目多個義項,也未必橫跨不同詞類,但不同義項還是要區分。因此使用者須依照網頁上所指出的「詞義與舉例」來選按。
+ *e.g.「呼」這動詞,在現代國語會想到「呼巴掌」,同時也有另一義項「呼氣」。這兩個義項顯然在「與格轉換」架構下,是不同類別的動詞。「呼巴掌」不能說「我呼一巴掌給你」,但可以說「我呼你一巴掌;「呼氣」則兩種句型都不能說。類似這種情況,「呼」這動詞的類別,使用者還是要仔細看網頁上所指出的「詞義與舉例」。
+ *
+ d. 有些動詞在「與格轉換」架構下,兩種句子都是正確、可接受的,但不一定屬於動詞A。這類動詞在選項「兩個句子都可以填入『同一個名詞』」還要再加區分。
+ *e.g. 動詞「拿」即屬此例。「我拿十塊錢給你」和「我拿你十塊錢」兩個句子都是正確、可接受的,但意思完全不同。因此不能屬於動詞A。
+ *
+ e. 有許多古代中文的動詞,現代國語已經不會用了。這種情況在選項「兩個都不可以填入名詞」還需要再加區分。
+ *e.g.比如動詞「站」為非及物動詞,所以「我站一__給你」和「我站你__」都無法填入任何名詞;然而,動詞「羅」也是兩個句子都不是正確、可理解的,但原因卻不相同。動詞「羅」有「羅列」的意思,古代中文可以理解這樣的意思,但現代國語不行。因此動詞D選項「兩個都不可以填入名詞」還要區分出「這是現代國語的動詞」,或者不是。
+ *★★關於這一點感謝 ET Blue的測試與回饋。事實上,就連現代國語在特殊情況下,也會使用像「羅」這樣的動詞,這是可以理解的。以下再舉另一個例子。
+ *比如我們容易知道「窮」是「貧窮」的意思,但其實我們也可以知道「窮」有動詞「窮盡」的意思,並且在古代中文這是及物動詞,比如「欲窮千里目」。如果我們想到了這樣的意思,那麼中文系看到漂亮的美景,可能會說「我好想窮千里啊」,那麼在這種情境下是可以理解的。
+ *然而,給力萌典之所以講求「母語人士使用現代國語的語感判斷」,是希望這樣的判斷可以應用在外語學習或其他應用領域。比如一個外語學習者在生活當中說「這風景好漂亮喔,我們來『窮』一下!」那麼很可能國語使用者都無法聽懂他的意思。在這樣的情況下,為了讓外語學習者可以簡單、輕易地掌握國語,並且避免他們說出錯誤的句子,我們就必須把「窮盡」這個義項,在兩個都不可以填入名詞」的選項裡選擇「這不是現代國語的動詞」。
+
+ *3.1.4 下一階段想解決的問題
+ a. 多義詞的問題雖然已經解決,但有些多義詞中的義項,僅限於特殊結構。比如「打」有「打字(書寫)」的意思,可以說「我打一個文件給你」,但是現在國語「動賓」結構中,受詞會和動詞有緊密的結合,比如「打電話」,這種情況雖然在動詞類別上會和「打字(書寫)」相同,但意義不同。這樣的例子尚有待區分。
+
+ b. 有許多「動賓」結構,也是基於結構本身過於穩定的緣故,不容易在分類中獲得。比如動詞「吃」應屬於動詞D,但「吃豆腐」卻是極其特殊的動賓結構,也屬於相同義項「口中咀嚼食物後嚥下」,卻是「佔便宜」的隱喻。因此雖然「吃」是動詞D,但我們卻可以說「豬哥亮吃林志玲豆腐」,卻又不能說「豬哥亮吃林志玲三塊豆腐」。這樣的區分如何展開,還有待解決。
+
+ c. 動詞分類後,除了編輯字典內容外,進一步的知識內容有待第二階段分析。比如同一筆資料,如果僅有一人判斷,則未必準確;或可固定一筆資料十人判斷,再觀察數據。
+ d. 自hackath9n當天測試後,就發現選項的分類和說明頁面如果不完善,就容易誤導使用者,也容易讓使用者選錯,這會得出動詞分類的結果未必準確。目前BETA先以建立完善架構為目標,至於好的字典內容可尚待下一階段完成。
|
||