Siri là một trong những bất ngờ thú vị nhất được Apple giới thiệu khi hãng ra mắt chiếc điện thoại iPhone 4S vào năm 2011. Với iOS 7, trợ lý ảo Siri tiếp tục được hoàn thiện với khả năng nhận diện tốt và hỗ trợ khối lượng kiến thức phong phú hơn. Song tiền thân của Siri lúc đầu lại là một ứng dụng của bên thứ 3 trên iOS chứ nó không phải là công nghệ gốc của Apple. Nhận thấy những tiềm năng to lớn của công nghệ này, Apple đã mua lại công ty sở hữu Siri với giá 200 triệu USD và biến nó trở thành một công cụ độc quyền của mình.
Tuy nhiên, không nhiều người trong số chúng ta hiểu rõ về cơ chế hoạt động của Siri. Vậy có một câu hỏi đặt ra ở đây là: Làm sao Siri trên các thiết bị iOS có thể hiểu được giọng nói của con người?
1. Biến sự chuyển động của các phân tử trong không khí thành những con số
Sở dĩ âm thanh từ một nguồn khác có thể đi vào tai bạn hay các mic thu âm là do sự thay đổi của áp suất không khí. Thực chất nó là một làn sóng âm liên tục nên bạn có thể nghe mọi thứ một cách liền mạch.
2. Lọc âm, tính toán để phát hiện đúng giọng nói của chủ thể
Khi sử dụng tính năng nhận diện giọng nói từ Siri, không phải lúc nào bạn cũng ở trong điều kiện tốt nhất là tiếng ồn bằng 0. Thực tế xung quanh chúng ta tồn tại vô số tạp âm như tiếng xe cộ, chim hót, gió thổi hay tiếng nói của những người khác. Chính vì vậy để có thể chắt lọc và nhận biết chính xác âm thanh nào từ chủ thể sử dụng phát ra, âm thanh nào là các tạp âm không mong muốn, hệ thống phần mềm của Siri sẽ thực hiện một loạt các thuật toán để lọc tạp âm và giữ lại câu lệnh của người dùng. Tất nhiên nếu sử dụng Siri ở khu vực có độ ồn cao, sai số là điều không thể tránh khỏi.
Thông thường những câu hỏi hay mệnh lệnh mà người dùng đưa ra là một tổ hợp phức tạp các sóng âm với nhiều tần số khác nhau. Mỗi một sự thay đổi nhỏ trong tần số đều có thể là những yếu tố rất quan trọng để tạo ra sự khác biệt (đó là lý do thiết bị có thể nhận biết được các âm như "ah" hay âm "ee"). Để làm được điều này, bộ phần mềm của Siri tiếp tục phải thực hiện rất nhiều thuật toán đã được lập trình để có thể chuyển đổi những sóng âm phức tạp trên thành các biểu tượng dạng số học.
Có tổng cộng khoảng 40 âm vị khác nhau trong Tiếng Anh. Thiết bị sẽ phải đoán được mỗi một âm vị riêng trong từng câu chữ của chúng ta, quá trình này thực sự rất phức tạp và các lập trình viên phải đưa ra hàng loạt ví dụ với nhiều âm vị khác nhau để đưa vào bộ nhận diện chuẩn của thiết bị. Không những vậy, Siri trên iPhone còn được dạy để đoán âm dựa trên sự luyến láy hay các điểm nhấn mạnh từ phía người nói, chẳng hạn chữ "t" trong từ "star" cũng có cách đọc khác với chữ "t" trong "city". Nói cách khác Siri có thể hiểu được nhiều loại âm vị khác nhau trong từng ngữ cảnh cụ thể.
Siri cũng được trang bị sẵn bên trong một hệ thống danh sách các từ vựng được phát âm theo nhiều cách khác nhau. Nó sẽ dự đoán về những từ đang được nói bằng cách đặt các chuỗi âm vị thành một từ có nghĩa và quan trọng là phù hợp với ngữ cảnh mà người nói đang sử dụng.
Khi chúng ta đã có đủ số từ để ghép lại thành một câu hoàn chỉnh thì lúc này trật tự các từ lại trở nên quan trọng. Một câu sẽ trở nên vô nghĩa khi các từ bị sắp xếp lộn xộn. Vậy để tránh sự cố này thiết bị cần phải tính toán để đặt đúng từ vào đúng vị trí, nhằm tạo nên chuỗi âm vị với các từ ngữ hợp lệ. Bên cạnh đó, thiết bị cũng phải được làm quen để dễ dàng đoán được từ tiếp theo là gì.
7. Thi hành lệnh
Sau khi những quá trình như trên kết thúc, chiếc điện thoại iPhone của chúng ta đã nhận diện và hiểu được người dùng muốn làm gì. Bước cuối cùng là thi hành lệnh. Siri sẽ được chuẩn bị sẵn một loạt rất nhiều mã lệnh khác nhau như mở ứng dụng, gửi tin nhắn, gọi điện... Nếu thấy yêu cầu của người dùng trùng khớp với một trong các mã lệnh trên, Siri sẽ thực hiện lệnh một cách nhanh chóng.
Tuy nhiên trong trường hợp người dùng đưa ra các câu hỏi, mọi việc sẽ trở nên phức tạp hơn. Chẳng hạn bạn muốn hỏi: "Tối nay ở Megastar chiếu phim gì?". Lúc này sau khi đã ghi nhận đầy đủ câu hỏi, Siri sẽ phải tìm ra các từ quan trọng, mấu chốt như từ chỉ thời gian, từ chỉ địa điểm và thành tố chính. Một thực tế ít ai biết rằng, khi người dùng đưa ra câu hỏi, Siri sẽ kết nối với kho dữ liệu trên máy chủ của Apple, và khi không tìm được câu trả lời thích hợp, nó sẽ chuyển sang tìm kiếm trên internet, mà ở đây Siri có cả tùy chọn tìm kiếm trên Google và Bing. Tất cả đều được thực hiện trong khoảng thời gian cực kỳ ngắn trước khi đưa ra câu trả lời cuối cùng.
Trên thực tế, các công nghệ nhận diện giọng nói hiện nay như Siri của Apple, Google Now của Android hay Bing do Microsoft phát triển đều có cách thức hoạt động khá tương đồng. Chỉ có điều sự thông minh, tính chính xác cũng như tốc độ phản hồi sẽ phục thuộc riêng vào các thuật toán cũng như kho dữ liệu cơ sở của mỗi công ty. Dù đang bị Google Now cạnh tranh rất quyết liệt và chưa thể gọi là một trợ lý ảo hoàn hảo nhưng chúng ta đều có thể hy vọng rằng trong tương lai, Siri sẽ chứng tỏ được giá trị cũng như tính hữu ích của mình đối với người dùng nhiều hơn nữa.
H.A - Theo Trí Thức Trẻ | GenK