26/10/2021

Nhận dạng giọng nói hoạt động như thế nào?

Nhận dạng giọng nói hoạt động như thế nào?

Đôi khi bạn thấy mình đang nói chuyện với các thiết bị kỹ thuật số nhiều hơn là với những người khác. Trợ lý kỹ thuật số trên thiết bị sử dụng tính năng nhận dạng giọng nói để hiểu người dùng đang nói gì. Nhờ đó, bạn có thể quản lý nhiều khía cạnh của cuộc sống chỉ bằng cách nói chuyện với điện thoại hoặc loa thông minh.

Mặc dù nhận dạng giọng nói là một phần quan trọng của cuộc sống, nhưng ít người trong chúng ta quan tâm đến cách thức hoạt động của nó. Rất nhiều điều xảy ra trong nhận dạng giọng nói. Cùng thungnhamninhbinh.com tìm hiểu thông tin chi tiết qua bài viết dưới đây nhé!

Nhận dạng giọng nói là gì?

Các thiết bị hiện đại thường được trang bị một trợ lý kỹ thuật số, một chương trình sử dụng nhận dạng giọng nói để thực hiện một số tác vụ trên thiết bị. Nhận dạng giọng nói là một tập hợp các thuật toán mà trợ lý ảo này sử dụng để chuyển giọng nói của bạn thành tín hiệu kỹ thuật số và xác định những gì bạn đang nói. Các chương trình như Microsoft Word sử dụng tính năng nhận dạng giọng nói để giúp nhập từ.

Nhận dạng giọng nói đã trở thành một phần không thể thiếu của công nghệ hiện đạiNhận dạng giọng nói đã trở thành một phần không thể thiếu của công nghệ hiện đại

Hệ thống nhận dạng giọng nói đầu tiên

Hệ thống nhận dạng giọng nói đầu tiên được gọi là hệ thống Audrey, viết tắt của “Automated Digit Recognition”. Được phát minh vào năm 1952 bởi Phòng thí nghiệm Bell, Audrey có thể nhận ra các con số. Người nói sẽ nói một số và Audrey sẽ thắp sáng một trong 10 bóng đèn tương ứng.

Phát minh này mang tính đột phá, nhưng nó không được đón nhận nồng nhiệt. Bản thân hệ thống máy tính cao khoảng 1,8m và chiếm một lượng lớn không gian. Tuy nhiên, với kích thước khổng lồ này, nó chỉ có thể giải mã các số từ 0 – 9. Ngoài ra, chỉ những người có một loại giọng cụ thể mới có thể sử dụng Audrey, vì vậy nó được điều khiển chủ yếu bởi một người. chỉ một.

See also  Chế độ Cinematic là gì, chế độ Cinematic trên iPhone 13 có gì đặc biệt?

Mặc dù còn lâu mới hoàn hảo, Audrey là bước đầu tiên trong hành trình dài để tạo ra công nghệ nhận dạng giọng nói như ngày nay. Không mất nhiều thời gian trước khi hệ thống nhận dạng giọng nói tiếp theo xuất hiện, có thể hiểu các chuỗi từ.

Nhận dạng giọng nói bắt đầu bằng việc chuyển đổi âm thanh thành tín hiệu kỹ thuật số

Hệ thống nhận dạng giọng nói phải trải qua các bước nhất định để tìm ra những gì con người đang nói. Khi micrô của thiết bị nhận âm thanh, nó sẽ được chuyển đổi thành dòng điện truyền xuống bộ chuyển đổi tương tự-kỹ thuật số (ADC). Như tên cho thấy, ADC chuyển đổi dòng điện (tức là tín hiệu tương tự) thành tín hiệu nhị phân kỹ thuật số.

Khi dòng điện chạy đến ADC, nó lấy mẫu dòng điện và giải mã điện áp tại những thời điểm nhất định. Điện áp tại một thời điểm nhất định được gọi là mẫu. Mỗi mẫu chỉ dài vài mili giây. Dựa trên điện áp của mẫu, ADC chỉ định một chuỗi gồm tám chữ số nhị phân (một byte dữ liệu).

Hệ thống nhận dạng giọng nói phải trải qua các bước nhất định để tìm ra những gì con người đang nóiHệ thống nhận dạng giọng nói phải trải qua các bước nhất định để tìm ra những gì con người đang nói

Âm thanh được xử lý để trở nên rõ ràng

Để thiết bị hiểu rõ hơn về người nói, âm thanh cần được xử lý để cải thiện độ rõ ràng. Thiết bị đôi khi được giao nhiệm vụ giải mã giọng nói trong môi trường ồn ào; do đó, một số bộ lọc nhất định được áp dụng cho âm thanh để giúp loại bỏ tiếng ồn xung quanh. Đối với một số hệ thống nhận dạng giọng nói, các tần số trên và dưới phạm vi nghe của con người được lọc bỏ.

Hệ thống không chỉ loại bỏ các tần số không mong muốn; Một số tần số nhất định trong âm thanh cũng được nhấn mạnh để máy tính có thể nhận dạng giọng nói tốt hơn và tách nó khỏi tiếng ồn xung quanh. Một số hệ thống nhận dạng giọng nói thực sự chia âm thanh thành nhiều tần số riêng biệt.

See also  TubeMate - Tải xuống TubeMate - thungnhamninhbinh.com

Các khía cạnh khác, chẳng hạn như tốc độ và âm lượng của âm thanh, được điều chỉnh để phù hợp hơn với các mẫu âm thanh tham chiếu mà hệ thống nhận dạng giọng nói sử dụng để so sánh. Các quy trình lọc và khử nhiễu này thực sự giúp cải thiện độ chính xác tổng thể.

Sau đó, hệ thống nhận dạng giọng nói bắt đầu tạo ra các từ

Có hai cách phổ biến mà hệ thống nhận dạng phân tích giọng nói. Một được gọi là mô hình Markov ẩn, và mô hình kia là thông qua mạng nơ-ron.

Phương pháp mô hình Markov ẩn

Mô hình Markov ẩn là phương pháp được sử dụng trong hầu hết các hệ thống nhận dạng giọng nói. Một phần quan trọng của quá trình này là chia nhỏ các từ đã nói thành âm vị của chúng (yếu tố nhỏ nhất của ngôn ngữ). Có một số lượng hữu hạn các âm vị trong mỗi ngôn ngữ, đó là lý do tại sao phương pháp mô hình Markov ẩn hoạt động rất hiệu quả.

Có khoảng 40 âm vị trong ngôn ngữ tiếng Anh. Khi hệ thống nhận dạng giọng nói xác định một âm vị, nó sẽ xác định xác suất mà âm vị tiếp theo có thể là.

Ví dụ, nếu người nói phát ra âm “ta”, thì có một xác suất chắc chắn rằng âm vị tiếp theo sẽ là “p” để tạo thành từ “vòi”. Cũng có khả năng âm vị tiếp theo sẽ là “s”, nhưng khả năng đó ít hơn nhiều. Nếu âm vị tiếp theo giống với “p”, hệ thống có thể cho rằng từ đó là “tap” một cách an toàn.

Có hai cách phổ biến mà hệ thống nhận dạng phân tích giọng nóiCó hai cách phổ biến mà hệ thống nhận dạng phân tích giọng nói

Phương pháp mạng nơron

Mạng lưới thần kinh giống như một bộ não kỹ thuật số học nhiều thứ giống như cách mà bộ não con người đang làm. Mạng nơ-ron đã đóng vai trò quan trọng trong sự phát triển của trí tuệ nhân tạo và Học sâu.

See also  4 cách tạo tài khoản người dùng cục bộ trong Windows 10

Loại mạng nơ-ron mà tính năng nhận dạng giọng nói sử dụng được gọi là Mạng nơ-ron tái diễn (RNN). Theo GeeksforGeeks, RNN là một mạng trong đó “đầu ra từ (các) bước trước được cung cấp làm đầu vào cho bước hiện tại”. Điều này có nghĩa là khi RNN xử lý một bit dữ liệu, nó sẽ sử dụng dữ liệu đó để tác động đến những gì nó sẽ làm với bit dữ liệu tiếp theo – về cơ bản nó sẽ rút kinh nghiệm.

RNN càng tiếp xúc với một ngôn ngữ nhất định thì khả năng nhận dạng giọng nói càng chính xác. Nếu hệ thống xác định âm “ta” 100 lần và theo sau là âm “p” trong 90 lần đó, thì về cơ bản mạng có thể biết rằng “p” thường đứng sau “ta”.

Do đó, khi hệ thống nhận dạng giọng nói xác định một âm vị, nó sẽ sử dụng dữ liệu tích lũy để dự đoán âm vị nào có khả năng xuất hiện tiếp theo. Bởi vì RNN không ngừng học hỏi, bạn càng sử dụng chúng, thì khả năng nhận dạng giọng nói sẽ chính xác hơn.

Sau khi hệ thống nhận dạng giọng nói xác định các từ (cho dù với mô hình Marvok ẩn hay với RNN), thông tin đó sẽ được gửi đến bộ xử lý. Sau đó, hệ thống thực hiện nhiệm vụ mà nó phải làm.

Nhận dạng giọng nói đã trở thành một phần không thể thiếu của công nghệ hiện đại

Nhận dạng giọng nói đã trở thành một phần quan trọng trong bối cảnh công nghệ hiện đại. Nó đã được triển khai vào một số ngành công nghiệp và dịch vụ trên toàn thế giới. Trên thực tế, nhiều người kiểm soát toàn bộ cuộc sống của họ bằng trợ lý giọng nói. Bạn có thể tìm thấy các trợ lý như Siri ngay trên Apple Watch của mình. Điều chỉ là một giấc mơ vào năm 1952 đã trở thành hiện thực và sẽ tiếp tục phát triển trong tương lai.