Thống kê, lập mô hình dự đoán và khai thác dữ liệu với JMP

12/10/2020 2.670 lượt xem

Cho dù mục tiêu của bạn là mô tả, dự đoán hay giải thích, bạn sẽ đánh giá cao mô hình khám phá thống kê của JMP, mô hình khai thác sức mạnh tổng hợp nội tại giữa hình ảnh hóa và mô hình hóa. Bất kể hình dạng và kích thước dữ liệu của bạn như thế nào, miễn là nó phù hợp với bộ nhớ, JMP sẽ cho phép bạn tận dụng tối đa dữ liệu đó, bất kể mức độ chuyên môn thống kê hiện tại của bạn.
JMP cung cấp các phương tiện toàn diện cho hồi quy tuyến tính và phi tuyến đơn biến, các phương pháp tiếp cận đa biến hữu ích hơn để thăm dò, giảm số chiều và mô hình hóa, cũng như để phân tích chuỗi thời gian và dữ liệu phân loại. JMP và JMP Pro nhằm đáp ứng nhu cầu thống kê của hầu hết người dùng, hiển thị các kỹ thuật và kết quả khác nhau theo cách mà bạn có thể dễ dàng nắm bắt, nhưng không ảnh hưởng đến độ sâu của phân tích. JMP cũng có một tập hợp các tiện ích mô hình hóa để giải quyết các vấn đề dữ liệu phổ biến từ trước, trong khi JMP Pro bao gồm một tập hợp phong phú các thuật toán phức tạp để xây dựng các mô hình tốt hơn với dữ liệu lộn xộn.
Với JMP, bạn không chỉ có thể hoàn thành mô hình của mình một cách nhanh chóng và chính xác, sử dụng Formula Depot (JMP Pro), bạn có thể dễ dàng so sánh và đối chiếu các mô hình được xây dựng bằng các cách tiếp cận khác nhau và tạo mã bằng C, Python, JavaScript hoặc SAS có thể được triển khai để ghi các trường hợp mới.
Thông qua các báo cáo trực quan và tương tác và trình lập hồ sơ, JMP giúp bạn truyền đạt những phát hiện đơn giản hoặc phức tạp cho những người có thể không có duyên với các phương pháp thống kê, nhưng những người cần hiểu và hành động theo phát hiện của bạn. Kết quả mô hình do JMP tạo ra cũng có thể được cấu hình động trong trình duyệt web trên điện thoại di động hoặc máy tính để bàn.
Cuối cùng, bằng cách sử dụng cơ sở tích hợp, JMP Pro có thể dễ dàng thực hiện các phép tính kích thước mẫu cho các mô hình được trang bị (đơn giản hoặc phức tạp) thông qua mô phỏng Monte Carlo. Điều này giúp bạn đánh giá sức mạnh của dữ liệu bạn đã thu thập để giải quyết các câu hỏi trong tầm tay.

 

Hồi quy


hồi quy

Loại mô hình hồi quy tuyến tính rất đa dạng và phổ biến. JMP đưa những phương pháp mạnh mẽ này vào tay các học viên ở mọi cấp độ kỹ năng và ở dạng họ có thể dễ dàng sử dụng.

Sử dụng Fit Y by X, bạn có thể kiểm tra và lập mô hình sự phụ thuộc giữa một đầu vào và kết quả duy nhất. JMP hợp nhất những gì thường được coi là một tập hợp các phương pháp thống kê khác nhau thành một tổng thể thống nhất, dễ hiểu và cung cấp kết quả đồ họa để bạn có thể hiểu kết quả một cách dễ dàng.
Nền tảng Fit Model cung cấp một môi trường để lắp các mô hình đơn giản hoặc phức tạp với các hiệu ứng cố định và ngẫu nhiên được chỉ định và các điều khoản lỗi đã xác định. 
Báo cáo Tóm tắt Hiệu ứng cho phép bạn kéo và thả các cụm từ để xem tác động của chúng đối với mô hình.
Dù phương pháp xây dựng mô hình ưa thích của bạn là gì, JMP cung cấp một bộ hoàn chỉnh các phương pháp thủ công và tự động, với chẩn đoán thích hợp, để cho phép bạn nhanh chóng xây dựng hầu hết các loại mô hình tuyến tính. Cách tiếp cận “thiếu thông tin” cho phép đóng góp thông tin trong tất cả các hàng của bạn. Các tùy chọn phù hợp cụ thể tập trung sự chú ý của bạn một cách thích hợp; JMP Pro mở rộng danh mục bằng cách thêm Mô hình hỗn hợp (để xử lý chính xác các phép đo lặp lại và không gian) và Hồi quy tổng quát (với các kỹ thuật hồi quy chính quy hoặc bị phạt như Mạng đàn hồi giúp xác định X có thể có sức mạnh giải thích). 
JMP Pro cũng hỗ trợ hồi quy lượng tử.
JMP cho phép bạn dễ dàng so sánh các mô hình cạnh tranh. Nhiều câu trả lời được xử lý theo cách tích hợp và Hồ sơ giúp bạn dễ dàng so sánh và đối chiếu khả năng diễn giải và kết quả của các kết quả phù hợp khác nhau. 
Hồ sơ cũng cho phép bạn tìm các cài đặt để tối ưu hóa chữ Y của mình và mô phỏng Monte Carlo giúp bạn đánh giá sự thay đổi của chữ X sẽ được truyền vào chữ Y
Nền tảng phi tuyến cho phép bạn mô hình hóa các mối quan hệ phi tuyến. Các mô hình phi tuyến sử dụng bình phương nhỏ nhất tiêu chuẩn hoặc một hàm mất mát tùy chỉnh. JMP cung cấp thư viện các loại mô hình phi tuyến cần thiết cho các nghiên cứu xét nghiệm sinh học và dược động học, đồng thời không yêu cầu bạn nhập các giá trị ban đầu hoặc công thức bổ trợ. Các biến nhóm được hỗ trợ và bạn có thể nhanh chóng và dễ dàng cô lập bất kỳ hiệu ứng chủ đề nào bằng cách sử dụng màn hình đồ họa. 
Cơ sở chức năng mất mát tùy chỉnh cung cấp thêm tính linh hoạt, cho phép bạn sử dụng, ví dụ, sử dụng các bình phương nhỏ nhất được tái trọng số lặp đi lặp lại để hồi quy mạnh mẽ.

Dữ liệu phân loại.

Dữ liệu phân loại
Nền tảng Categorical trong JMP cung cấp các bảng, tóm tắt và kiểm tra thống kê về dữ liệu phản hồi và nhiều dữ liệu phản hồi khi các phản hồi được đo lường chỉ ra tư cách thành viên của một danh mục cụ thể. Dữ liệu như vậy được tạo ra trong nhiều cài đặt khác nhau, bao gồm kết quả thử nghiệm, phân loại khuyết tật hoặc tác dụng phụ và quản lý các cuộc khảo sát.
Một phần vì ứng dụng đa dạng của nó, dữ liệu phân loại có thể được trình bày ở nhiều định dạng khác nhau. Một điểm mạnh đặc biệt của nền tảng Categorical là nó có thể xử lý sự đa dạng này mà không cần phải định hình lại dữ liệu trước khi khám phá và phân tích. Một hoặc nhiều cột có thể được sử dụng để xác định các danh mục trong đó và giữa các biến thể trong phản hồi được đánh giá và báo cáo Phân loại chứa các biểu đồ kết quả về tỷ lệ và tần suất, theo danh mục. Được sử dụng cùng với bộ lọc dữ liệu trong JMP, các biểu đồ này cung cấp việc xem xét nhanh chóng và dễ dàng các dữ liệu khảo sát quy mô lớn. Báo cáo cũng có thể hiển thị các bảng liên quan và bảng chéo, có thể được chuyển đổi nhanh chóng để xem hoặc in dễ dàng hơn nếu cần.

Tùy thuộc vào bản chất của các câu trả lời, bạn cũng có thể thống kê các câu hỏi như:

  • - Mô hình phản hồi có thay đổi theo các danh mục mẫu không và chúng có thay đổi theo thời gian không?
  • - Đối với mỗi danh mục phản hồi, tỷ lệ giữa các danh mục mẫu có giống nhau không?
  • - Các nhà phê bình đồng ý chặt chẽ như thế nào?
  • - Nguy cơ tương đối của các phương pháp điều trị khác nhau là gì?
  • Cây

Cây

Nền tảng Phân vùng trong JMP cho phép bạn tìm các vết cắt hoặc nhóm trong các đầu vào (X) của bạn để có thể dự đoán tốt nhất sự thay đổi trong đầu ra (Y). X và Y đều có thể phân loại hoặc liên tục. Quá trình phân tách dữ liệu bằng cách tìm một X thích hợp và một nhóm hoặc điểm cắt thích hợp cho X này là quy trình đệ quy - bạn có thể tiếp tục quá trình này cho đến khi bạn có được sự phù hợp hữu ích. Kết quả được biểu diễn một cách tự nhiên dưới dạng cây và bạn cũng có thể nhận được thông tin quan trọng về việc X đóng góp nhiều nhất vào việc giải thích sự biến đổi trong Y.
Cây khỏe mạnh khi có các giá trị bị thiếu và thích ứng trực tiếp với bất kỳ tác động chung nào của X. Bạn có thể trồng cây của mình bằng cách sử dụng cây quyết định, rừng bootstrap (chỉ JMP Pro) hoặc cây tăng cường (chỉ JMP Pro). Lưu ý rằng cây quyết định đơn giản không có khả năng tổng quát hóa tốt cho dữ liệu mới, vì vậy nếu bạn cần sức mạnh dự đoán, bạn nên điều tra JMP Pro

Mạng thần kinh


Mạng thần kinh
Nền tảng Neural trong JMP cho phép bạn xây dựng các mạng neural được kết nối đầy đủ với các nút ẩn trong một (JMP) hoặc hai lớp (JMP Pro). Trong JMP, tất cả các nút đều có các chức năng kích hoạt giống nhau. Trong JMP Pro, mỗi nút có thể có một trong ba chức năng kích hoạt khác nhau. Bạn có thể có bất kỳ số lượng nút nào trong mỗi lớp.
JMP Pro cũng cho phép bạn tự động xử lý dữ liệu bị thiếu, chuyển đổi X trong nền tảng và sử dụng tính năng tăng cường để giúp mạng của bạn tìm hiểu các trường hợp khó khăn bằng cách áp dụng một trong bốn phương pháp phạt.

Trình khám phá văn bản.


Trình khám phá văn bản
Nền tảng Text Explorer trong JMP cho phép bạn khám phá dữ liệu văn bản miễn phí ở nhiều dạng — ví dụ: phản hồi khảo sát, nhật ký sửa chữa, báo cáo kỹ thuật và trường phản hồi miễn phí. Text Explorer sử dụng cách tiếp cận "túi từ" để phân tích văn bản thành các mã thông báo để xây dựng ma trận thuật ngữ tài liệu. Nó cho phép bạn dễ dàng phân loại và khám phá ý nghĩa trong dữ liệu văn bản của mình, thay vì phải chọn xử lý thủ công hoặc bỏ qua hoàn toàn.
Ngoài ra, Text Explorer trong JMP cung cấp các phương pháp trích xuất từ ​​khóa cơ bản, có mã hóa cục bộ để làm sạch tài liệu mà không làm thay đổi văn bản gốc và có tùy chọn phát triển đám mây từ theo chủ đề. Bạn có thể tìm thông tin tiềm ẩn trong dữ liệu văn bản và xử lý dữ liệu văn bản theo những cách thông tin.
Trong JMP Pro, Text Explorer chứa các công cụ phân tích bổ sung sử dụng phân tách giá trị đơn lẻ (SVD) để nhóm các tài liệu tương tự thành các chủ đề. Nền tảng này cho phép bạn phân cụm tài liệu văn bản, cụm từ nằm trong bộ sưu tập tài liệu hoặc tài liệu cụm bằng cách sử dụng phân tích lớp tiềm ẩn. Bạn cũng có thể thực hiện phân tích phân biệt và sử dụng các cột xác thực trong quy trình làm việc mô hình dự đoán.


Kỹ thuật phụ thuộc lẫn nhau đa biến.

Kỹ thuật phụ thuộc lẫn nhau đa biến

Phân tích đa biến có thể tập trung vào các quan sát (hàng) hoặc vào các biến (cột) và có thể xử lý các biến trên cơ sở bình đẳng (kỹ thuật phụ thuộc lẫn nhau) hoặc phân biệt giữa các hiệu ứng, X và phản hồi, Y, (kỹ thuật phụ thuộc). Nhưng dù mục tiêu phân tích của bạn là gì, JMP sẽ làm việc với bạn để hoàn thành công việc. (Xem phần Kỹ thuật phụ thuộc đa biến để biết các phương pháp đa biến liên quan đến X và Y.)
Trong bối cảnh đa biến, điều quan trọng là phải xem xét chất lượng dữ liệu, việc xác định và xử lý các giá trị ngoại lệ, cũng như mô hình của các giá trị bị thiếu. JMP cung cấp các tiện ích giúp giải quyết những vấn đề này một cách vất vả. Thông thường, chúng cần phải được giải quyết lặp đi lặp lại khi phân tích mở ra và tính tương tác của JMP được xây dựng cho cách làm việc này. 
Nền tảng Đa biến thường là điểm khởi đầu cho bất kỳ phân tích nào có nhiều cột. Nó cho phép bạn nhanh chóng đánh giá các liên kết và tương quan tham số và không tham số giữa tất cả các cặp biến số, xác định các giá trị ngoại lệ và đưa ra các giá trị còn thiếu.
Đối với các kỹ thuật phụ thuộc lẫn nhau , JMP cung cấp Phân tích thành phần chính (PCA), phân tích nhân tố, phân cụm, phân tích lớp tiềm ẩn, chia tỷ lệ đa chiều, phân tích liên kết (JMP Pro), hỗn hợp bình thường và bản đồ tự tổ chức. Mỗi loại sử dụng một kiểu phân tích mở rộng để bạn có thể định hình cách tiếp cận của mình theo những gì dữ liệu tiết lộ cho bạn.
PCA cho phép bạn giảm kích thước của mô tả khi có các mối tương quan và việc triển khai trong JMP có thể chứa dữ liệu rất rộng một cách hiệu quả. Khi bạn có các biến phân loại thay vì định lượng, bạn có thể sử dụng JMP để thực hiện Phân tích nhiều tương ứng thay vì PCA để đạt được kết quả tương tự. Phân tích nhân tố cho phép bạn lập mô hình sự thay đổi giữa các biến quan sát về một số lượng nhỏ hơn các nhân tố không được quan sát. Nền tảng Phân tích nhân tố cho phép nhiều lần khớp và xoay trong một báo cáo và định dạng có điều kiện cho phép bạn loại bỏ các giá trị nhỏ.
Phân cụm, một kỹ thuật quan trọng trong học tập không giám sát, tạo thành các nhóm con để các trường hợp trong một nhóm con cụ thể giống nhau hơn các trường hợp trong một nhóm con khác. Nền tảng Cluster trong JMP cho phép bạn mở rộng quy mô và biến đổi các biến trước khi phân tích, cung cấp các thước đo khoảng cách khác nhau và bao gồm phân cụm phân cấp và k-means. Phân cụm phân cấp tạo ra một biểu đồ dendrogram mà bạn có thể thao tác tương tác để quyết định số lượng các cụm hữu ích nhất bằng cách sử dụng Tóm tắt cụm hoặc các phương pháp phỏng đoán khác. Bạn cũng có thể thêm các thước đo không gian vào dữ liệu xếp chồng để cho phép bạn phân cụm các mẫu lỗi cụ thể.
Phân tích lớp tiềm ẩn cung cấp một giải pháp thay thế cho phân nhóm và phân tích liên kết (còn được gọi là phân tích giỏ thị trường) xác định các kết nối giữa các đối tượng cụ thể (chẳng hạn như các mặt hàng thường được mua cùng nhau).

Kỹ thuật phụ thuộc Đa biến


Phần bình phương tối thiểu
Đối với các kỹ thuật phụ thuộc đa biến, JMP cung cấp hồi quy bình phương nhỏ nhất từng phần (PLS), phân tích phân biệt, Bayes ngây thơ và bộ phân loại láng giềng gần nhất, và Quy trình Gaussian.
PLS là một kỹ thuật đa năng có thể sử dụng dữ liệu ở bất kỳ hình dạng nào và với bất kỳ số lượng nào của X và Y. Nó thường được áp dụng trong các tình huống mà hồi quy tuyến tính không khả thi vì có nhiều X hơn các hàng, nhưng nó cũng có thể được coi là một kỹ thuật hữu ích trong mô hình dự đoán nói chung.
Nền tảng PLS trong JMP cung cấp các khả năng cơ bản, nhưng với JMP Pro cũng có tính cách PLS trong nền tảng Fit Model cho phép bạn phù hợp với các mô hình phức tạp hơn liên quan đến quyền hạn và điều khoản tương tác. Với JMP Pro, bạn cũng có thể xác định các giá trị còn thiếu và xây dựng các mô hình PLS bằng cách sử dụng các phương pháp xác thực lựa chọn.
JMP cung cấp cả thuật toán NIPALS và SIMPLS để điều chỉnh và các cách tự động để tìm ra số lượng yếu tố tiềm ẩn thích hợp nhất để đưa vào mô hình. Nó cung cấp tất cả các chẩn đoán thông thường để bạn có thể kiểm tra tính đầy đủ của mô hình. Bạn cũng có thể nhanh chóng tạo các mô hình PLS đã được lược bớt với số lượng điều khoản được giảm bớt đơn giản bằng cách thực hiện các lựa chọn thích hợp trong đầu ra đồ họa hoặc xác định giá trị ngưỡng VIP. Nếu phản hồi của bạn mang tính phân loại, bạn có thể sử dụng Phân tích phân biệt PLS trong JMP Pro.
Nền tảng Phân biệt cho phép bạn hiểu sự kết hợp nào giúp X giúp giải thích tư cách thành viên danh mục của Y. Nó cung cấp các phương pháp tuyến tính, bậc hai hoặc chính quy để phân biệt, lựa chọn từng bước X nếu cần và cho phép bạn dễ dàng kiểm tra các hàng không chắc chắn hoặc phân loại sai để quyết định những gì cần theo dõi hoặc hành động khắc phục. Discriminant có thể giải quyết một cách hiệu quả các vấn đề rộng hoặc rất rộng bằng cách sử dụng ma trận hiệp phương sai ước tính tối ưu thu được bằng cách thu nhỏ các mục nhập ngoài đường chéo một cách thích hợp.
Quy trình Gauss có thể được sử dụng để nội suy chính xác các giá trị Y là hàm của bất kỳ số nào của X (để xây dựng các mô hình thay thế của các hệ thống xác định) hoặc như một công cụ mô hình tổng quát hơn.

Chuỗi thời gian.


Chuỗi thời gian

Nền tảng Chuỗi thời gian trong JMP cho phép bạn khám phá, lập mô hình và dự báo chuỗi thời gian đơn biến. Phương pháp mô hình thống kê của bạn có thể được thông báo bằng chẩn đoán thông thường, bao gồm các biểu đồ tự tương quan và tự tương quan một phần, biểu đồ biến thể, hệ số AR và biểu đồ mật độ phổ. Bạn có thể dễ dàng phân tích chuỗi thời gian của mình để loại bỏ các hiệu ứng theo xu hướng và theo mùa, bao gồm cả việc sử dụng phương pháp X11.
Bạn có thể xây dựng một số mô hình ARIMA cho một chuỗi thời gian với một loạt các tham số chỉ bằng một cú nhấp chuột và chọn mô hình tốt nhất bằng cách sử dụng các số liệu đáng giá khác nhau, chẳng hạn như AIC, SBC, MAPE và MAE. Bạn có thể xây dựng các mô hình chuyển giao để lập mô hình chuỗi thời gian đầu ra cho một hoặc nhiều chuỗi đầu vào, áp dụng làm trắng trước cho các đầu vào nếu cần. Bạn cũng có thể tạo mã PROC ARIMA tương đương để chạy mô hình của mình trong SAS nếu cần.
Nền tảng Chuỗi thời gian cũng chứa một số kỹ thuật làm mịn chuỗi thời gian, bao gồm làm mịn theo cấp số nhân Holt, làm mịn theo cấp số nhân theo mùa và phương pháp của Winter.
Trong mọi trường hợp, bạn có thể tạo dự báo tương tác về hành vi được dự đoán trong tương lai, với khoảng tin cậy.


Ngoài ra, nếu có nhu cầu tư vấn cụ thể, vui lòng liên hệ ngay với #JYWSOFT để được nhận báo giá 
và tư vấn về sản phẩm kỹ hơn: 
Hotline : 0246 682 0511
Email : software@jywvina.com
Website : https://jywsoft.com 
Add : Tầng 4, Tòa nhà N01-T4, Khu Đoàn Ngoại Giao, P. XuânTảo, Q. Bắc Từ Liêm, TP. Hà Nội