興城信息網

NLP面試寶典:38個最常見NLP問題答案一文get

2020-01-02 14:13:21

80s手機電影 http://80splus.net/

新智元報道

來源:greatlearning

編輯:向學

自然語言處理(Natural Language Processing,NLP)是指幫助機器理解和分析自然語言;它是利用機器學習算法從數據中提取所需信息的一個自動化的過程。

自然語言處理雖然只是人工智能的一個子領域,但它對我們日常生活與學習的影響日漸深遠。自然語言處理也是人工智能中難度最大的子領域之一,也正是這樣的挑戰給我們帶來了更多機會;目前很多公司都在自然語言處理上發力,行業急需大量專業人才!

在申請與自然語言處理相關的工作職位時,應聘者往往不清楚面試官可能會問什么樣的問題。應聘者除了學習NLP的基礎知識外,專門為面試做準備也是很重要的。以下是NLP面試中常見的問題和答案的列表,并對其作了解釋,希望能對應聘者成功拿到好的offer起到幫助。

1.下列哪些技術能被用于關鍵詞歸一化(keyword normalization),即把關鍵詞轉化為其基本形式?

A. 詞形還原(Lemmatization)

B. 探測法(Soundex)

C. 余弦相似度(Cosine Similarity)

D. N-grams

答案:A

詞形還原有助于得到一個詞的基本形式,例如:playing -> play, eating -> eat等;其他選項的技術都有其他使用目的。

2.下列哪些技術能被用于計算兩個詞向量之間的距離?

A. 詞形還原(Lemmatization)

B. 歐氏距離(Euclidean Distance)

C. 余弦相似度(Cosine Similarity)

D. N-grams

答案:B與C

兩個詞向量之間的距離可以用余弦相似度和歐氏距離來計算。余弦相似度在兩個詞的向量之間建立一個余弦角,兩個詞向量之間的余弦角接近表示詞相似,反之亦然。例如,與“Football”、“NewDelhi”這2個詞相比,“Football”、“Cricket” 這兩個詞之間的余弦角將更接近于1。通常,文檔相似度是通過文檔中的內容(或單詞)在語義上的接近程度來衡量的;當它們接近時,相似度指數接近于1,否則接近于0。兩點之間的歐氏距離是連接這兩點的最短路徑的長度。通常用畢達哥拉斯定理計算三角形。

3.文本語料庫的可能特征是什么?

A. 文本中詞計數

B. 詞的向量標注

C. 詞性標注(Part of Speech Tag)

D. 基本依存語法

E. 以上所有

答案:E

以上所有這些都可以作為文本語料庫的特征。

4.你在20K文檔的輸入數據上為機器學習模型創建了文檔-詞矩陣(document-term matrix)。以下哪項可用于減少數據維度?

(1)關鍵詞歸一化(Keyword Normalization)

(2)潛在語義索引(Latent Semantic Indexing)

(3)隱狄利克雷分布(Latent Dirichlet Allocation)

A.? 只有(1)

B. (2)、(3)

C. (1)、(3)

D. (1)、(2)、(3)

答案:D

5.哪些文本分析技術可被用于名詞短語檢測、動詞短語檢測、主語檢測和賓語檢測?

A. 詞性標注(Part of Speech Tagging)

B. Skip Gram 和N-Gram 提取

C. 連續性詞袋(Bag of Words)

D. 依存句法分析(Dependency Parsing)和成分句法分析(Constituency?Parsing)

答案:D

6.用余弦相似度表示的詞之間的差異將顯著高于0.5

A. 正確

B. 錯誤

答案:A

7.下列哪項是關鍵詞歸一化技術?

A. 詞干提?。⊿temming)

B.?詞性標注(Part of Speech)

C. 命名實體識別(Named Entity Recognition)

D. 詞形還原(Lemmatization)

答案:A與 D

詞性標注(POS)與命名實體識別(NER)不是關鍵詞歸一化技術。

8.下面哪個是NLP用例?

從圖像中檢測物體

面部識別

語音生物識別

文本摘要

答案:D

A和B是計算機視覺應用案例,C是語音應用案例。

9.在包含N個文檔的語料庫中,隨機選擇的一個文檔總共包含T個詞條,詞條“hello”出現 K 次。如果詞條“hello”出現在全部文檔的數量接近三分之一,則TF(詞頻)和 IDF(逆文檔頻率)的乘積的正確值是多少?

A. KT * Log(3)

B. T * Log(3) / K

C. K * Log(3) / T

D. Log(3) / KT

答案:C

10. ?下列算法中減少了常用詞的權重,增加了文檔集合中不常用詞的權重的是?

A. 詞頻(TF)

B. 逆文檔頻率(IDF)

C. Word2Vec

D. 隱狄利克雷分布(Latent Dirichlet Allocation)

答案:B

11.從句子中刪除“and”、“is”、“a”、“an”、“the” 這樣的詞的過程被稱為?

A. 詞干提?。⊿temming)

b. 詞形還原(Lemmatization)

C. 停用詞(Stop Words)

D. 以上所有

答案:C

12.將句子或段落轉換為tokens的過程稱為詞干提?。⊿temming)

A. 正確

B. 錯誤

答案:B

這是分詞(tokenization),而不是詞干提取。

13.在給到任何神經網絡之前,Tokens都會被轉換成數字

A. 正確

B. 錯誤

答案:A

在自然語言處理中,所有的詞在輸入到神經網絡之前都被轉換成數字。

14.找出其中的異類

A.?nltk

B.?scikit learn

C. SpaCy

D. BERT

答案:D

除了BERT是一個詞嵌入方法以外,其它都是NLP庫。

15.TF-IDF幫你建立

A. 文檔中出現頻率最高的詞

B. 文檔中最重要的詞

答案:B

TF-IDF有助于確定特定詞在文檔語料庫中的重要性。TF-IDF考慮了該詞在文檔中出現的次數,并被出現在語料庫中的文檔數所抵消。

16.從給定的句子、段落中識別人名、組織名的過程稱為?

A. 詞干提?。⊿temming)

B. 詞形還原(Lemmatization)

C. 停用詞消除(Stop Word Removal)

D. 命名實體識別(Named Entity Recognition)

答案:D

17.下列哪一項不是預處理技術?

A.??詞干提取和詞形還原(Stemming and Lemmatization)

B.??轉換成小寫(Converting to Lowercase)

C.??刪除標點符號(Remove Punctuation)

D.??刪除停用詞(Removal of Stop Words)

E.??情緒分析(Sentiment Analysis)

答案:E

情緒分析不是一種預處理技術。它是在預處理之后完成的,是一個NLP用例。所有其他列出的都用作語句預處理的一部分。

18.在文本挖掘中,可以使用以下哪項命令完成將文本轉換為tokens,然后將其轉換為整數或浮點向量的操作?

A. CountVectorizer

B. TF-IDF

C. 詞袋模型(Bag of Words)

D. NERs

答案:A

CountVectorizer可幫助完成上述操作,而其他方法則不適用。

19.將詞表示成向量被稱為神經詞嵌入(Neural Word Embeddings)?

正確

錯誤

答案:A

20.下列哪種詞嵌入支持上下文建模(Context Modeling)?

A. Word2Vec

B. GloVe

C. BERT

D. 以上所有

答案:C

只有BERT(Bidirectional Encoder Representations from Transformer)支持上下文建模。

21.下列哪種嵌入方式支持雙向上下文(Bidirectional Context)?

Word2Vec

BERT

GloVe

以上所有

答案:B

只有BERT支持雙向上下文。Word2Vec和GloVe是詞嵌入,它們不提供任何上下文。

22.下列哪種詞嵌入可以自定義訓練特定主題?

A. Word2Vec

B. BERT

C. GloVe

D. 以上所有

答案:B

23.詞嵌入捕獲多維數據,并表示為向量?

正確

錯誤

答案:A

24.詞嵌入向量有助于確定2個tokens之間的距離?

正確

錯誤

答案:A

可以使用余弦相似度來確定通過詞嵌入來表示的兩個向量之間的距離。

25.語言偏見是由詞嵌入訓練中使用的歷史數據引入的,下面哪項不是偏見的示例?

新德里之于印度,北京之于中國

男人之于電腦,女人之于家庭主婦

答案:A

陳述B是一種偏見,因為它把女人變成了家庭主婦,而陳述A不是一種偏見。

26. 以下哪項是解決NLP用例(如語義相似性、閱讀理解和常識推理)的更好選擇?

A. ELMo

B. Open AI’s GPT

C. ULMFit

答案:B

Open AI的GPT能夠通過使用Transformer模型的注意力機制(Attention Mechanism)來學習數據中的復雜模式,因此更適合于諸如語義相似性、閱讀理解和常識推理之類的復雜用例。

27. Transformer架構首先是由下列哪項引入的?

A. GloVe

B. BERT

C. Open AI’s GPT

D. ULMFit

答案:C

ULMFit擁有基于LSTM的語言建模架構;這之后被Open AI的GPT的Transformer架構所取代。

28. 以下哪種架構可以更快地訓練,且需要更少的訓練數據?

A. 基于LSTM的語言建模

b. Transformer架構

答案:B

從GPT開始,Transformer架構就得到了支持,而且訓練速度更快,所需的數據量也更少。

29. 相同的詞可以通過___________來實現多個詞嵌入?

GloVe

Word2Vec

ELMo

Nltk

答案:C

ELMo(Embeddings from Language Models)詞嵌入支持同一個詞的多個嵌入,這有助于在不同的上下文中使用同一個詞,從而捕獲上下文而不僅僅是詞的意思,這與GloVe、Word2Vec不同。Nltk不是詞嵌入。

30. 對于一個給定的token,其輸入表示為它的token嵌入、段嵌入(Segment Embedding)、位置嵌入(Position Embedding)的總和

A. ELMo

B. GPT

C. BERT

D. ULMFit

答案:C

BERT使用token嵌入、段嵌入(Segment Embedding)、位置嵌入(Position Embedding)。

31. 從左到右和從右到左訓練兩個獨立的LSTM語言模型,并將它們簡單地連接起來

A. GPT

B. BERT

C. ULMFit

D. ELMo

答案:D

ELMo嘗試訓練兩個獨立的LSTM語言模型(從左到右和從右到左),并將結果連接起來以產生詞嵌入。

32.用于產生詞嵌入的單向語言模型

BERT

GPT

ELMo

Word2Vec

答案:B

33. 在這種架構中,對句子中所有詞之間的關系進行建模,而與它們的位置無關。這是哪種架構?

A. OpenAI GPT

B. ELMo

C. BERT

D. ULMFit

答案:C

BERT Transformer架構將句子中每個詞和所有其他詞之間的關系建模,以生成注意力分數。這些注意力分數隨后被用作所有詞表示的加權平均值的權重,它們被輸入到完全連接的網絡中以生成新的表示。

34.列出10個使用NLP技術解決的用例

情緒分析(Sentiment Analysis)

語言翻譯(英語到德語、中文到英語等等)

文檔摘要(Document Summarization)

問題回答

句子完成

屬性提?。◤奈臋n中提取關鍵信息)

聊天機器人交互

主題分類(Topic Classification)

意圖提?。↖ntent Extraction)

語法或句子更正

圖像描述生成(Image Captioning)

文檔排名(Document Ranking)

自然語言推理

35. Transformer模型關注句子中最重要的詞

A. 正確

B. 錯誤

答案:A

Transformer模型中的注意機制用于建模所有詞之間的關系,并為最重要的詞提供權重。

36.以下哪種NLP模型的準確性最高?

A. BERT

B. XLNET

C. GPT-2

D. ELMo

答案:B. XLNET

XLNET在所有模型中都給出了最好的準確性。它在20個任務上都優于BERT,在情感分析、問答、自然語言推理等18個任務上都取得了頂尖的結果。

37.排列語言模型(Permutation Language Models)是下列哪項的特點?

A. BERT

B. EMMo

C. GPT

D. XLNET

答案:D

XLNET提供了基于排列的語言模型,這是與BERT的一個關鍵區別。

38. Transformer XL使用相對位置嵌入

A. 正確

B. 錯誤

答案:A

Transformer XL使用嵌入來編碼詞之間的相對距離,而不是必須表示詞的絕對位置。這個嵌入用于計算任意兩個詞之間的注意力得分,這兩個詞之間可以在之前或之后被n個詞分隔開。

這樣,你就有了所有可能的NLP面試問題?,F在就去盡你最大的努力吧!

參考資料:

https://www.greatlearning.in/blog/nlp-interview-questions/

(聲明:本文僅代表作者觀點,不代表新浪網立場。)

文章關鍵詞: 網絡文化

用微信掃描二維碼分享至好友和朋友圈

' + _substr(uids[i].name, 0, 14) + '

' + _substr(uids[i].v_reason, 0, 16) + '

上一篇:

下一篇:

Copyright? 2015-2020 興城信息網版權所有
31选7走势图大星彩票走势图