登頂!思必馳-上海交大聯(lián)合實(shí)驗室刷新Text-to-SQL語(yǔ)義解析任務(wù)多個(gè)榜單紀錄
來(lái)源:思必馳 編輯:VI菲 2022-04-21 15:18:13 加入收藏
人們日常生活和工業(yè)生產(chǎn)中產(chǎn)生的海量數據被廣泛存儲于結構化數據庫中,如何高效利用這些結構化數據成為近年學(xué)術(shù)研究和產(chǎn)業(yè)應用都十分關(guān)注的熱點(diǎn)。
盡管直接編寫(xiě)SQL語(yǔ)句和數據庫進(jìn)行交互是目前最直接的方法,但是非計算機專(zhuān)業(yè)的從業(yè)人員需要耗費大量時(shí)間學(xué)習其語(yǔ)法,即便是SQL專(zhuān)家,反復編寫(xiě)也是單調低效的工作。
近年來(lái)基于自然語(yǔ)言發(fā)展起來(lái)的數據庫查詢(xún)接口(NLIDB)為用戶(hù)與數據庫進(jìn)行交互提供了一種簡(jiǎn)潔高效的方法。NLIDB背后的核心技術(shù)是Text-to-SQL語(yǔ)義解析,其作用是在給定相應的數據庫模式結構下,將用戶(hù)的自然語(yǔ)言問(wèn)句轉換成SQL查詢(xún)語(yǔ)句。
Text-to-SQL任務(wù)是自然語(yǔ)言處理任務(wù)中最具挑戰性的任務(wù)之一,該任務(wù)的輸入既要考慮用戶(hù)的自然語(yǔ)言問(wèn)題也要考慮數據庫的模式結構,此外,該任務(wù)的輸出是結構化的SQL語(yǔ)句。
登頂中文千言榜單
思必馳-上海交大人機交互聯(lián)合實(shí)驗室團隊在繼去年6月份取得Text-to-SQL任務(wù)英文基準榜單Spider第一名后,近期又取得Text-to-SQL任務(wù)中文千言榜單第一名。
千言榜單囊括了Text-to-SQL任務(wù)三個(gè)最經(jīng)典的中文數據集DuSQL、NL2SQL、CSpider。本次刷榜的模型LGESQL+GTL是研究團隊在之前提出的線(xiàn)圖增強的Text-to-SQL模型LGESQL的基礎上,進(jìn)一步提出了結構化的動(dòng)態(tài)解碼方案GTL,使得模型既能很好地編碼結構化的異構輸入,同時(shí)也能夠實(shí)現高效準確的結構化解碼。
頂級會(huì )議,發(fā)表多篇論著(zhù)
聯(lián)合實(shí)驗室在相關(guān)方向的頂級國際會(huì )議上已發(fā)表多篇論文:
1) 針對Text-to-SQL任務(wù)中用戶(hù)問(wèn)句和數據庫模式的聯(lián)合異構圖編碼挑戰,提出了基于線(xiàn)圖增強的LGESQL模型,相關(guān)成果發(fā)表于A(yíng)CL 2021主會(huì ),論文:http://img.dav01.com/eRemote/2022/4/21/dav01_230791_1650525550414_1444874903.pdf
2) 針對單輪問(wèn)答式Text-to-SQL任務(wù)不同領(lǐng)域之間,由詞表差異引發(fā)的領(lǐng)域遷移和泛化問(wèn)題,提出了ShadowGNN模型,將結構和語(yǔ)義信息解耦,相關(guān)成果已發(fā)表于NAACL 2021主會(huì ),論文:http://img.dav01.com/eRemote/2022/4/21/dav01_230791_1650525511433_2133323121.pdf
3) 針對多輪對話(huà)式Text-to-SQL任務(wù)的上下文建模問(wèn)題,提出DELTA框架,對多輪對話(huà)進(jìn)行語(yǔ)義補全和句子改寫(xiě),轉化為單輪的場(chǎng)景,相關(guān)成果已發(fā)表于A(yíng)CL 2021 Findings,論文:http://img.dav01.com/eRemote/2022/4/21/dav01_230791_1650525521196_1457988333.pdf
評論comment